BeSTCon 2021에 발표한 AI 파이프라인과 실전 테스트 발표 자료입니다.
어니컴은 안면인식/이상행동 식별 사업, 불법복제 판독 식별, AI 스피커 성능 테스팅에 참여하면서, AI 테스팅에 풍부한 경험이 쌓여있는 기업입니다.
본 자료에서는 실제 AI 테스팅시 알아야할 기초적인 개념과 유의할 사항 그리고 성능 지표 / 평가 데이터 구축에 대한 전반에 대한 것들을 소개하고자 합니다.
-AI 파이프라인의 이해
-품질 검증을 위해 품질 업체가 참여해야 하는 영역
-AI 모델에서 사용하는 주요 성능 평가 지표 설명
-안면인식 /이상행동 사례
-평가 데이터 선정
-편향성, 공정성에 대한 고민들
-학습/평가 데이터 정제와 고민해야 하는 것들
-성능 리포트 작성시 고려해야 하는 사안들
4. 머신러닝 분류
지도 학습
Supervised learning
강화학습
reinforcement learning
비지도 학습
unsupervised learning
정답이 있는 문제를 해결하는 것
데이터의 관찰을 통해 새로운 의미나 관계를 밝히는 것
더 좋은 보상을 받기 위해 수련하는 것
4
7. 분류 (종속변수, 독립변수)
출처 : 생활코딩 머신러닝
독립변수 종속변수 학습시킬 데이터를 만드는 방법
공부시간
합격 여부
(합격/불합격)
사람들의 공부시간을 입력받고, 최종 합격여부를 확인한다.
X-ray 사진과 영상 속
종양의 크기, 두께
악성종양 여부
(양성/음성)
의학적으로 양성과 음성이 확인된 사진과 영상 데이터를 모은다
품종, 산도, 당도, 지역, 연도 와인의 등급 소믈리에를 통해서 등급이 확인된 와인을 가지고 품종, 산도 등의 독립변수를 정하고 기록한다.
키, 몸무게, 시력, 지병 현역, 공익, 면제 키, 몸무게, 시력, 지병 등을 토대로 현역, 공익, 면제인지를 확인한다.
메일 발신인, 제목, 본문 내용
(사용된 단어, 이모티콘 등)
스팸 메일 여부 이제부터 받은 메일을 모으고, 이들을 스팸 메일과 일반 메일로 구분한다.
고기의 지방함량,
지방색, 성숙도, 육색
소고기 등급 소고기의 정보를 토대로 등급을 측정한다.
7
10. AI 테스팅,품질 관리 담당자/기업이 해야 할일
원하는 AI 모델
원천 데이터
비 가공된 데이터
현실성 판단 불가
축적
활용
데이터 품질 체크
데이터 추출
학습 데이터 품질 체크
AI 모델 품질
모델 성능 측정 도구
평가데이터 구축
빠른 성능 리포트 배포
우수한 모델 선정
선정 방법및 절차 모름
AI 도입기업 AI 테스팅 / 품질 기업 AI 모델 기업 다수
AI 모델 개발
데이터 가공
데이터 가공
이미지/영상/텍스트
데이터 정제
학습
축적
활용
10
11. AI 생애주기
11
구분 1. 데이터 수집 및 전처리 2. AI 모델 설계 및 개발 3. 시스템 구현 및 배포 4. 운영
내용
• 수집
• 이용/제공 (전처리,가명처리)
• 파기/보관
• 설계/개발
• 모델적용/초기학습
• 비즈니스적용/심화
• 테스트
• 출시
• 개선
• 조직, 유지 및 보수, 서비스 정책,
내부 교육 등 (상시)
기술적
이슈
• 개인정보 무단 수집 여부 체크
• 개인정보 비식별화
• 데이터 수집의 편향성(인종, 성,
특정 집단 등) 이슈
• 잘못된 의사결정(개발자의 데
이터 활용 여부)
• 데이터 관리 및 분석 인력 부족
• 데이터 변조 등 공격
• XAI 적용의 한계
• 개발자의 선입견
• 잘못된 의사결정(알고리즘)
• AI 모델의 편향성
• 개발인력의 다양성 부재(성비 문
제 등)
• 신뢰성 관련 전문인력의 부족
• AI 오작동
• 자동화된 AI의 공정성 이슈
• AI의 판단기준(블랙박스)
• 해킹 등 보안 문제
• 사용자의 악의적 사용
• 내부 모니터링 부재
• 고객 피드백 문제
• AI에 대한 대중의 기대치와 성능의
괴리감
정책적
이슈
• 데이터 수집 매뉴얼 부재 • 자체 공정성 시험 체계 부족
• 사후 편향성 스크리닝 체계성 부족
• 확증편향성 문제
• 추적/감사 정책 및 대응 매뉴얼 부
재
*음성인식(인식,정제) → 자연어 처리(독해,
분류, 생성) → 추천 (분석, 추천)
12. EDA (Exploratory Data Analysis)
SweetViz
https://github.com/fbdesignpro/sweetviz
두줄로 간단히 하는 EDA
https://bit.ly/3De2KBu
12
23. AI PIPELINE (파이프라인) 설명
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
재학습
모델 평가
23
24. 모델의 성능 평가지표 (혼동 행렬 = Confusion Matrix)
실제 정답
TRUE FALSE
분류 결과
TRUE
FALSE
True Positive(TP)
실제 True인 정답을 True라고
예측 (정답)
False Positive(FP)
실제 False인 정답을 True라고
예측 (오답)
False Negative(FN)
실제 True인 정답을 False라고
예측 (오답)
True Negative(TN)
실제 False인 정답을 False라고
예측 (정답)
24
25. 모델의 성능 평가지표
Precision 정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율
날씨 예측 모델이 맑다로 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표
Recall 재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율
실제 날씨가 맑은 날 중에서 모델이 맑다고 예측한 비율을 나타낸 지표
Trade-off : 확실히 맑은 날을 예측할 수 있다면 해당하는 날에만 맑은 날이라고 예측하면 되겠다.
예를 들어 한달 30일 동안 맑은 날이 20일이었는데, 확실한 2일만 맑다고 예측한다면,
당연히 맑다고 한 날 중에 실제 맑은 날(Precision)은 100%가 나오게 됩니다.
이게 정상인가?
우리는 실제 맑은 20일중에 모델이 예측한 맑은 날의 수도 고려해야 한다.
25
26. 모델의 성능 평가지표
실제 정답
TRUE FALSE
분류 결과
TRUE
FALSE
True Positive(TP) False Positive(FP)
False Negative(FN) True Negative(TN)
Accuracy 지금까지 True를 True라고 옳게 예측한 경우에 대해서만 다루었습니다.
하지만, False를 False라고 예측한 경우도 옳은 경우입니다
정확도
26
27. 모델의 성능 평가지표
Accuracy
정확도
정확도 의 단점
데이터가 편향되어 있을 경우…
이 경우에는 해당 data의 domain이 불균형 하게 되므로
맑은 것을 예측하는 성능은 높지만,
비가 오는 것을 예측하는 성능은 매우 낮을 수 밖에 없음.
“비가 안 오는 아프리카 지역이라면….”
27
28. 모델의 성능 평가지표
F1 Score 데이터가 편향되어 있을 경우… Precision, Recall 의 조화 평균
즉. 단순 평균보다 작은 쪽으로 치우치는 평균
28
29. 모델의 성능 평가지표
Sensitivity
병에 걸린 사람이 검사결과 양성으로 나올 확률
TP / (TP + FN
민감도
Specificity
건강한 사람이 검사 결과 음성으로 나올 확률
TN/(TN+FP)
특이도
29
30. 모델의 성능 평가지표
1) 적절한 평가 기준을 찾기
2) 모든 평가 기준에 최적의 해는?
ROC 수신자 조작 곡선 Receiving Operating Characteristic
평가하는 사람마다 기준이 다를 때.
30
31. 모델의 성능 평가지표
ROC X,Y축
X = TPR(True Positive Rate = recall = sensitivity)은 실제 참(True)인데 참(Positive)이라 예측한 경우
Y = FPR(False Positive Rate)은 실제 거짓(False)인데 참(Positive)이라 잘못 예측한 경우
31
32. 모델의 성능 평가지표
ROC-AUC (Area Under Curve) or AUROC (Area Under ROC)
하위 면적이 1(100)에 가까울수록 좋은 알고리즘
기준을 이렇게 해도, 저렇게 해도 잘 분류하는 알고리즘
32
33. 그런데.. 알고리즘이 다들 너무 우수한 영역이라면
A 알고리즘 비정확도 = 0.0001%
A 알고리즘 정확도 = 99.9999%
B 알고리즘 비정확도 = 0.0009%
B 알고리즘 정확도 = 99.9991%
C 알고리즘 비정확도 = 0.0011%
C 알고리즘 정확도 = 99.9989%
33
34. 모델의 성능 평가지표
ROC X,Y축을 못 맞추는 비율로 변경
X = FRR(False Rejection Rate = False Positive Rate)
정당한 주체가 잘못 거절되는 비율
(본인 거부율 = 생체인식에서 인식되어야 하는 사림인데 거부되는 비율)
(정상 오인율 = 정상 부품을 이상 부품이라고 인식하는 비율)
Y = FAR(False Acceptance Rate = False Negative Rate).
정당하지 않는 주체가 잘못 인정되는 비율
(타인 수락율 = 생체인식에서 인식되어서는 안될 사람을 인식하는 비율)
(잘못 허용율 = 이상 부품을 정상 부품이라고 인식하는 비율)
34
44. 안면인식 시험 해외 사례 - NIST 미국 국립 표준 기술연구소 - FRVT
• 이미지 위주의 평가 분석
• C/C++ 언어만 지원 (DLL로 제출, 언어의 제약이 심함)
• GPU가 없는 제한된 환경에서 테스트 (임베디드 환경)
• 1:1(Verification)의 특정 조건에 통과해야만,
1:N(Identification) 이후 테스트에 진입 가능
• 오랜 기간 수행하는 안정성 테스트 없음
• 이상행동 테스트 없음
• 영상 테스트는 존재하나 1분 내의 동영상을 다 읽고 판별
(실시간성 부족)
시사점
FERET의 이미지 데이터 샘플
• 얼굴인식 분야에 평가 기법을 도입하는 프로토타입 수준(정확성) 평가
• 기준 이미지와 변화 별 이미지와의 매칭을 통한 성능 비교평가
• 평가 지표: 검증률(verification rate: 맞는 사람을 잘 받아들일 확률),
타인수락률(False Accept Rate: 타인을 수락하는 오류율) 등
• 안면인식 시스템의 상업적 이용 가능성 대한 기술적인 평가
• 평가항목은 FERET에서 발전하여 압축, 거리, 조명, 포즈, 해상도 등의 변화에 따른 성능을 실험
• 실제 상황에서 발생 가능한 정지 영상 시나리오로 잘 작동하는지 평가
• 대용량의 이미지 데이터베이스(121,589개의 얼굴영상)를 활용하여 매칭
비교 성능 평가를 수행하는 고 계산도 시험 수행 (242시간 동안 150억 번 비교 수행)
• 정지 영상 매체와 동영상 매체의 성능을 평가하는 매체 계산 시험 수행
• 전 시험 과정을 완전 자동화
FERET(FacE REcognition Technology) [1993년 ~ 1997년]
FRVT(Face Recognition Vendor Test) [2000년]
FRVT(Face Recognition Vendor Test) [2008년]
44
45. • 다양한 밴더들이 참가할 수 있게
표준화된 Restful API 인터페이스 제공
• 공항 상황에서 여권 인식을
잘 수행하기 위한 최적화된 모델
• 인식률도 중요하나,
평균 5초, 최대 20초 안에 결과 출력 필수 됨
• 공항 상황에 최적화된 1:N (Identification) 인식 테스트 모델
• 인식률 이외에, 인식 성공, 실패 판단 시간 평균 5초, 최대 20초 이내
• 정확도 및 만족도를 체크하는 알고리즘 테스트 (다양한 이미지 셋)
• 이미지 셋의 구성 테스트 (모든 알고리즘에서 비슷하게 동작하는지)
• 인식하는데 걸리는 시간
• 만족도 (지원자가 Very Happy ~ Very Unhappy)
• 얼굴, 홍채 획득 실패와 시간
• 얼굴, 홍채 인식률 (밴더 정확률, MdTF 정확률 두 개를 뽑아 비교)
안면인식 시험 해외 사례 - 미국 국토안보부 MdTF (Maryland Test Facility)
시사점
배경
개발방법
평가지표
45
46. • 8채널 동시 테스트
• 실시간 이상행동 감지 테스트
• 공항에 최적화된 테스트 환경
다중 카메라에 의한 식별추적 예시
• 공항 상황에 최적화된 안면인식/ 이상행동 알고리즘 도출
• 낮은 해상도에서도 안면인식 알고리즘의 동작여부.
• 실시간으로 이상행동을 감지.
• 실시간 스트리밍으로 안면인식/ 이상행동을 판별해야 함.
• 8개의 채널을 1대의 GPU서버에서 처리
Nvidia Geforce RTX 2080,CPU 10 Core, 512GB
• 이미지 테스트 : 1:1, 1:N
• 동영상 안면인식 테스트 : 1:1, 1:N
• 동영상 이상행동 테스트 : 이상행동 4종 , 이상행동 4종 + 안면인식
BFRWD5
법무부의 요구사항
배경
개발방법
평가지표
시사점
46
49. 머신러닝 파이프라인
5000개의 이상행동 데이터 5000개의 이상행동 검증 데이터
튜닝
모델 선정
학습
데이터 준비
데이터 조사
ML Model Training
경량화 & 배포
모델 평가
재학습
1천만명 외국인 데이터
1억1천만명 외국인 데이터
49
50. 안면인식 이미지 구성 (19년도)
각도(D)
정면
상
하
좌
우
좌상
우상
좌하
우하
표정(F)
무표정
찡그림
웃음
눈감음
악세서리(A)
모자
목베개
사탕(막대사탕)
마스크(턱밑)
안경
귀걸이
안경 + 모자
모자 + 사탕
조명
밝음
좌
우
역광
어두움
배경(B)
단색
혼합
옷(C)
단색
혼합
헤어스타일(H)
올림
내림
푼머리
묶은머리
화장(M)
일반
기초
• 안면 인식 테스트를 위한 검증 데이터 구성
- 개인 당 최대 3종의 안면 인식 데이터 제공 예정 (여권사진, 게이트 통과 사진 , 자동 게이트 통과 사진)
- 제한된 사진에서 다양하게 폭 넓은 안면 데이터 구성
성인 남성과 여성 (20 ~ 39세), 중장년 남성과 여성 (40 ~ 75세), 유아, 청소년 남성과 여성 (0세 ~ 19세)
동일 인물의 과거 사진이 있다면 추적하여 시계열로 구성
• 안면 변화 요인 총 8개: 각도, 표정, 악세서리, 조명, 배경, 옷, 헤어스타일, 화장한 것을 최대한 찾아내서 검증 데이터 구성
[안면 데이터 변화 요인]
50
51. 안면인식 평가 이미지 구성 (20년도)
나이, 성별등을 고려한 균등 분포로 평가 데이터 셋 구성
51
52. 이상행동 데이터 학습 데이터 생성
• 동영상에서 1:1, 1:N 식별
• 이상행동 요구사항
- 총 4종류의 이상행동 감지 : 돌진, 역방향 이동, 사람이 물건을 장시간 놓고 사라지는 행위, 2인 감지 (단, 2인 감지 행위는 자동출입국심사구역에서만 발생)
- 복합 시나리오 : 돌진+방치, 돌진+돌진, 방치+방치 조합 등
- 이상 행동 시 4채널 카메라에서 사용자를 추적하여 식별 필요 등
이상행동 종류 이벤트 시작기준 이벤트 종료기준
2인 감지
• 두 사람의 두 발이 완전하게 평가 영역
바닥에 들어온 순간
• 최소 한 사람의 두 발이 완전하게 평가 영역에서
나가는 순간
돌진 • 객관적으로 뛰는 동작이 시작되는 순간 • 객관적으로 뛰는 동작이 종료되는 순간
역주행
• 몸이 바라보는 방향은 상관없이 이동 방향 성분에
서 반대 방향 성분이 있는 순간
• 역방향으로 이동 성분이 사라지는 순간
장시간 물건 방치 • 신체에서 물건이 떨어지고 5초 지난 순간 • 어느 누구든 신체 일부가 물체에 닿는 순간
[이상행동 정의]
돌진
장시간 물건 방치
52
54. 기존 표준 분석 반영
[ FRVT ]
평가 유형 설명
FRVT 1:1
얼굴 인식 알고리즘 평가 및 몇 가지 다른 데이터 세트에서 FNMR (False
Non-Match Rate)로 측정 된 최고 1 : 1 성능의 알고리즘 평가
FRVT 1:N
FRVT 1:1에서 비자 사진 , 범죄자 사진 인식율이 높은 업체만 심사 참여 가
능, 다수의 아이덴티티가 등록 된 갤러리를 검색하는 일 대 N 얼굴 인식 알
고리즘의 정확도와 속도 향상 측정
FRVT
MoRPH
얼굴 탐지 알고리즘의 지속적인 평가
프로토 타입 얼굴 탐지 기술에 대한 지속적인 독립적 테스트를 제공
1. 스틸 사진의 얼굴 모핑 (모핑 / 블렌드 된 얼굴)을 감지하는 알고리즘 기
능
2. 모핑에 대한 얼굴 인식 알고리즘 저항
FRVT
Quality
Assesment
얼굴 이미지 품질 평가
단일 이미지에서 품질 스칼라의 알고리즘 출력을 평가
Face In
Video
Evaluation
실시간 스트리밍이 아닌 1분 내외의 녹화한 비디오를 입력으로 주고 1분
동안 다 읽은 후 결과를 반환 (영상에 1사람, 여러 사람, 사람이 없을 수도
있음)
DB에 등록된 사람중에 유사도가 높은 순으로 여러 후보와 해당하는 유사
도를 출력
평가 유형 설명
이미지
획득
시스템
평가
ㅇ RESTful API (HTTP) 로 통신
ㅇ 평가 항목
- Failure to Acquire Rate
- 이미지 획득 시간: 평균 10 초 이내 충족
- True Identification Rate:
보유한여러매칭알고리즘수행후95%이상식별해내는가?
- 획득한이미지가여러매칭알고리즘에서일관성있게동작하는가
- 사용자들이 평가 반영
매칭
알고리즘
평가
ㅇ RESTfulAPIHTTP서버기능이있는dockercontainer를제공
ㅇ 이미지를입력으로받아이미지성질을분석해저장한템플릿출력
ㅇ 평가 항목
- True Identification Rate 와 False Matching Rate 비율
1:10,000, 1:100,000, 1:1,000,000
- 충족 조건: FMR 1:10,000에서 정확도 95% 이상
- 각각 이미지 획득 시스템으로부터 얻어진 이미지를 사용하여 측정
- 이미지 획득 시스템에 민감하지 않게 잘 작동 하는가
- 인식을성공하든,실패하든최대20초,평균5초이내수행
[ MdTF ]
54
55. 평가 모델 – 안면인식 이미지
• 안면인식 시스템 성능평가 [이미지]
- 이미지 1:1 평가: 두 개의 이미지를 입력 받아 두 이미지가 같은 사람인지 다른 사람인지 판단
- 이미지 1:N 평가: 하나의 이미지를 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
거짓 부정 식별율 (FNIR)
(False Negative Identification
Rate)
실제로 등록된 사람 중,
알고리즘이 비등록인으로 판단하거나 등록된 사람을 잘못 판단한 비율
거짓 긍정 식별율 (FPIR)
(False Positive Identification Rate)
실제로 등록되지 않은 사람 중,
알고리즘이 등록된 사람이라고 판단한 비율
55
56. 평가 모델 – 안면인식 동영상
• 안면인식 시스템 성능평가 [동영상]
- 동영상 1:1 검증 : 하나의 여권 사진과 동영상에 등장하는 사람이 같은 사람인지 다른 사람인지 판단
- 동영상 1:N 검증: 하나의 동영상을 입력 받아 DB에 등록된 사람 중 누구인지 혹은 등록되지 않은 사람인지 판단
대상 평가지표 평가척도 평가방법
1-1
매칭 정확성
거짓 거부율 (FRR)
(False Rejection Rate)
실제로 같은 사람인 경우 중,
알고리즘이 다른 사람이라고 판단한 비율
거짓 수락율 (FAR)
(False Acceptance Rate)
실제로 다른 사람인 경우 중,
알고리즘이 같은 사람이라고 판단한 비율
1-N
매칭 정확성
재현율 (Recall)
영상에서 실제로 사람이 등장한 ‘tight interval’ 범위 중,
알고리즘이 누구인지 맞춘 시간대 비율
정밀도 (Precision)
알고리즘이 예측한 사람의 등장 시간대 범위 중,
영상에서 실제로 사람이 등장한 ‘loose interval’ 범위에서 맞춘 시간대 비율
※ loose, tight interval은 다음장에서 설명
56
57. 평가 모델 고도화 – 이상행동
[ 수행 구간 정의 ]
1s 2s 4s 5s
3s 6s
알고리즘이 예측한 ‘돌진'
이상행동 구간
넓은 정의 구간 (loose interval)
대상 정의
loose interval
모호한 시간대를 포함해서 넉넉하게 잡은 시간 구간
이 시간대 밖에서는 알고리즘이 무슨 수를 써도 맞게 감지할 수 없다고 판단
tight interval
모호한 시간대를 제외하고 확실하게 이상행동이 발생한다고 판단하는 시간 구간
이 시간대 안에서는 알고리즘이 맞게 감지해야 한다고 판단
재현율 (Recall) 1/2 = 0.5 정밀도 (Precision) 2/3 = 0.66
[ 모호한 구간 – 돌진 예시(언제부터 돌진인가?) ]
좁은 정의 구간 (tight interval)
57
59. 평가 모델 시스템 구축
RTMP
• 테스트 베드의 평가 시스템 요구사항
- 참여업체에서 개발된 프로그램을 동시에 검증할 수 있도록 평가 시스템 구축
- 참여업체에서 개발된 프로그램 소스코드 보안 필요
- 환경을 고려한 시나리오 평가는 실시간으로 수행
• CCTV 사양
- Single RGB / IR, depth 등의 기능 비활성화 / IP 카메라 / 1920 x 1080 해상도(법무부에서 현재 사용하고 있는 해상도)
- 모델명: HIKVISION DS-2CD2025FWD-1.6mm (30fps, 52” 사각)
• 시스템 사양
- 동영상 : Intel Xeon E5-2640 v4 (10core) / 128GB (삼성전자 DDR4 32G PC4-21300 * 4) /GPU: GeForce RTX 2080 Ti 11GB 2개
- 이미지 : Intel i5-10201U 4Core / 16GB / Interl UHD Graphics 620 (맥미니)
[ 사진 검증 (안면인식) ] [ 동영상 검증 (안면인식 & 이상행동) ]
59
60. 평가 수행 사전 준비
• 평가 검증 절차 / 테스트 인터페이스 설명회 (네크워크 환경, 평가 검증 절차 및 안내 공지)
• 클라우드에서 접속 가능하도록 인터페이스 오픈
• 사전 테스트 기간 제공
[ 테스트 인터페이스 설명회 ] [ 사전 테스트 ]
[ 테스트 시스템 클라우드 오픈] [ 개별 인터페이스 Swagger 오픈]
60
66. AI 평가 모델 수행 전략
• 품질평가 기반 개선 포인트
컨설팅
- AI 품질 확보 방안 자문
- AI 성능 개선 자문
- AI 데이터 품질 자문
• 테스트 방법 컨설팅
- AI 테스트 가이드
• AI 모델 테스트(성능)
- AI 성능 지표 도출 방안 자문
- AI 성능 지표 기반 품질 확보방안을 도
출하는 방법 자문
• 데이터 테스트
- AI 데이터 품질‧양‧수준 확보방안 자
문
- 데이터 구성수준 자문
- AI 데이터 적합성 자문
• AI 시스템 테스트 & 기능 테스트 (인수
테스트)
테스트 베이시스
측정지표
• AI 성능지표
• 데이터 품질 지표
• 시스템 품질지표
• 모델 개발 산출물
- 학습/테스트 데이터 구성도
• AI프로파일
• 시스템 개발 산출물
◎ AI 모델성능/데이터 테스트〮컨설팅 내용 - 테스트를 지원하며 AI 성능 지표/개선 및 데이터 품질 컨설팅 수행
◎ 기업의 니즈(설문결과 + 대상기업의 요구)를 테스트와 컨설팅을 수행하고 추진할 때 반영함.
• AI 활용성 개선 컨설팅
66
67. AI 시스템 테스트 방안 – AI 모델 테스트
ü 측정 지표를 통해 측정하며 신뢰 할 수 있는 측정값을 얻기 위해 다음 사항을 고려
1) AI 프로파일
2) AI 테스트 데이터 세트
3) AI 모델 측정지표(AI 모델별 측정지표 or 손실함수)
4) 적절한 측정 횟수
AI 시스템 테스트 접근법
1) AI 모델 프로파일
4) 적절한 측정 횟수
3) AI 모델 측정지표
(AI 모델별 측정지표 or 손실함수)
2) AI 테스트 데이터 세트 측정 결과
AI 모델
67
68. ML Task 세분화 및 성능지표
◎ 기계학습 태스크의 세분화 후 여기에 사용되는 성능지표를 정리해 제안요청서 상에 제시된 것을 포함하는
모든 성능지표를 파악에 컨설팅 대상기업이 사용하는 지표를 커버하고, 더 적합한 지표를 추천함
비전 자연어 그 외
세분화
성능
지표
분류
F-Beat
Precision
Recall
ROC
PR-Curve
AUC
객체 인식
mAP
BBox
F-Beta
IoU
Confidence
객체 분할
BELU
F-Beta
MAP
MAE
Hit-Rate
생성
Inception
Score
FID
MS-SSIM
추정
PCP
PCK
PDJ
MPJPE
AUC
문장 분류
F-Beta
Precision
Recall
ROC
PR-Curve
AUC
문장 생성
F-Beta
BLEU
CIDR
METEOR
ROUGE-L
감정 분석
Accuracy
Recall
Precision
F-Beta
PR-Curve
ROC
AUC
추천 시스템
의료
음성
68