4차 산업혁명시대에 인공지능 등 신기술을 기반으로 한 서비스가 주목받음에 따라 데이터 활용을 위한 사회적 요구가 높아지고 있으며, 이에 대한 사회적 논의 역시 활발히 이루어지고 있습니다.
법무법인 민후 김경환 변호사는 ‘개인정보보호 국제워크숍2021’에서 ‘원본데이터의 AI 학습목적 이용’을 주제로 한 발표를 통해 최근 있었던 관련 이슈와 주요 쟁점에 대해 자세히 설명하였습니다.
2. - 2 -
문제의 제기 : 이루다 사건
○ 사건의 개요
- (주)스캐터랩은 자사의 앱 서비스인 ‘텍스트앳’과 ‘연애의 과학’에서
카카오톡 대화를 수집함
- 텍스트앳 : 카카오톡 대화 내용을 통해서 대화자의 감정을 객관적
으로 분석하는 서비스
- 연애의 과학 : 상대방의 애정도나 커플의 이별 확률 등을 예측하는
심리테스트
- (주)스캐터랩은 ‘텍스트앳’과 ‘연애의 과학’에서 수집한 카카오톡 대
화를 챗봇 서비스인 ‘이루다’의 인공지능(AI) 개발과 운영에 이용함
3. - 3 -
- ’텍스트앳‘과 ’연애의 과학‘의 개인정보처리방침 : ’신규 서비스 개발‘
기재 후 이루다 개발과 운영에 이용함
- ’이루다‘의 개발 과정 : (주)스캐터랩은 이루다 인공지능 모델의 개
발을 위한 알고리즘 학습 과정에서, 카카오톡 대화에 포함된 이름,
휴대전화번호, 주소 등의 개인정보를 삭제하거나 암호화하는 등의
조치를 취하지 않고, 약 60만명에 달하는 이용자의 카카오톡 대화
문장 94억여 건을 이용함
- ’이루다‘의 운영 과정 : 20대 여성의 카카오톡 대화문장 약 1억 건
을 응답 DB로 구축하고, ‘이루다’가 이 중 한 문장을 선택하여 발화
할 수 있도록 운영함
4. - 4 -
○ 개인정보보호위원회의 처분 내용
- ’텍스트앳‘과 ’연애의 과학‘의 개인정보처리방침에 ’신규 서비스 개발
‘ 기재 후 이루다 개발과 운영에 이용함 점 ⇒ 개인정보를 수집하
면서 정보주체에게 명확하게 인지할 수 있도록 알리고 동의를 받지
않아 개인정보보호법 제22조 제1항 위반 ⇒ 시정명령, 과태료 각
160만원
제22조(동의를 받는 방법) ① 개인정보처리자는 이 법에 따른 개인정보의 처리에 대하여 정보주체의
동의를 받을 때에는 각각의 동의 사항을 구분하여 정보주체가 이를 명확하게 인지할 수 있도록 알리고
각각 동의를 받아야 한다.
5. - 5 -
- ’이루다‘의 개발ㆍ운영 중에 카카오톡 대화의 원본이 활용된 점 ⇒
수집 목적 외로 이루다 학습ㆍ운영에 카카오톡 대화문장을 이용한
행위로서 개인정보보호법 제18조 제1항 위반 ⇒ 시정명령, 과징금
780만원
제18조(개인정보의 목적 외 이용ㆍ제공 제한) ① 개인정보처리자는 개인정보를 제15조 제1항 및 제
39조의3 제1항 및 제2항 에 따른 범위를 초과하여 이용하거나 제17조 제1항 및 제3항 에 따른 범
위를 초과하여 제3자에게 제공하여서는 아니 된다.
6. - 6 -
AI 학습데이터의 유형
○ 비식별화 정도에 따라
- 원본데이터 : 개인정보 O
- 가명데이터 : 개인정보 O
- 익명데이터 : 개인정보 X
* 익명데이터 : 개인정보가 아니므로 법적으로 이슈가 없고, AI 학습
데이터로서 가치도 없음
○ 정형성에 따라
- 정형데이터
- 비정형데이터 : 대화, 영상, SNS, 활동기록 등
7. - 7 -
가명데이터의 AI 학습목적 활용
○ 가명정보 : 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정
보의 사용ㆍ결합 없이는 특정 개인을 알아볼 수 없는 정보
* 가명처리 : 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체
하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없
도록 처리하는 것
○ 가명정보의 처리 특례 : 개인정보처리자는 통계작성, 과학적 연구, 공익적
기록보존 등을 위하여 정보주체의 동의 없이 가명정보를 처리할 수 있음
* 과학적 연구 : 기술의 개발과 실증, 기초연구, 응용연구 및 민간 투자
연구 등을 포함
8. - 8 -
○ 가명처리된 데이터의 AI 학습목적의 이용은 허용됨
- 다만, 가명처리를 하는 대상으로서의 개인정보는 적법하게 수집해야
하고, 특정 개인을 알아보기 위한 목적으로 가명처리해서는 아니 됨
- AI 개인정보보호 자율점검표
9. - 9 -
○ 가명처리는 가명정보 처리 가이드라인에 따라야 함
1) 필요한 서식
- 내부관리계획의 수립 및 시행 필요
- 개인정보처리방침에의 공개
2) 필요한 안전성 확보조치
- 추가정보의 안전한 분리 관리
- 접근권한의 분리
- 가명정보 기록 작성ㆍ보관 및 공개
3) 필요한 절차
- 사전준비 : 목적 명확화, 필요한 서류 작성
- 위험도 측정 : 처리환경과 항목별 위험도를 분석
- 적정성 검토 : 가명처리 수준의 적정성과 목적달성 가능성 검토
11. - 11 -
○ 가명정보 이용의 문제점
- 비정형데이터의 경우 가명처리에 대한 안정된 기준이 없음
- 가명처리하는데 많은 시간과 노력이 투입됨에도, 오히려 가명처리
가 오류율을 높힘
- 안정적인 서비스 도입이나 경쟁력 확보에 장애가 됨
- 예컨대 자율주행자동차의 경우 인식 오류로 국민의 안전에 부정적
인 영향 줌
※ 이루다 사건
- 비정형데이터(카카오톡 대화)를 가명처리해서 학습했으면 적법함
- 그러나 (주)스캐터랩은 일부 원본데이터 상태로 학습에 활용함
12. - 12 -
원본데이터의 AI 학습목적 활용
○ 동의를 받은 경우 : 가능
- 구체적인 목적 제시로 적법한 동의가 필요함
예) OO서비스의 챗봇 알고리즘 개발(학습용)
- 이루다 사건 : ’신규 서비스 개발‘ 기재만으로 부족함
- 민감정보의 경우 별도의 동의를 받아야 함
- 바이오정보 보호 가이드라인 : ’선택동의‘로 규정함
13. - 13 -
○ 동의를 받지 못한 경우
- 개인정보보호법 제15조 제3항의 ’추가처리‘인지 문제됨
제15조(개인정보의 수집ㆍ이용) ③ 개인정보처리자는 당초 수집 목적과 합리적으로 관련된 범위에서 정
보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을 고
려하여 대통령령 으로 정하는 바에 따라 정보주체의 동의 없이 개인정보를 이용할 수 있다.
제14조의2(개인정보의 추가적인 이용ㆍ제공의 기준 등) ① 개인정보처리자는 법 제15조 제3항 또는
제17조 제4항에 따라 정보주체의 동의 없이 개인정보를 이용 또는 제공(이하 “개인정보의 추가적인 이
용 또는 제공”이라 한다)하려는 경우에는 다음 각 호의 사항을 고려해야 한다.
1. 당초 수집 목적과 관련성이 있는지 여부
2. 개인정보를 수집한 정황 또는 처리 관행에 비추어 볼 때 개인정보의 추가적인 이용 또는 제공에 대
한 예측 가능성이 있는지 여부
3. 정보주체의 이익을 부당하게 침해하는지 여부
4. 가명처리 또는 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부
14. - 14 -
- AI 개인정보보호 자율점검표 : 원본데이터 자체를 고도화에 활용할
수 있다는 것인지 아니면 가명처리 또는 암호화 등이 필요한지에
대하여는 침묵하고 있음
- ’추가처리‘를 개인정보처리지침에 공개해야 하고, 안전성 확보조치
해야 함
15. - 15 -
○ ’추가처리‘의 문제점
- 특정 서비스에서 벗어난 다른 서비스 준비 목적으로 허용되는지 의
문임
- 동의 없이 수집된 개인정보(예컨대 자율차 영상)의 경우도 추가처리
가 허용되는지 의문임
- 법적 근거로서 완전하지 못한 리스크가 있음
- 가명처리 또는 암호화해야 추가처리가 허용되는지에 대한 논란이 있
을 수 있음
16. - 16 -
안전구역(safety zone)의 제안
○ 안전구역의 설치
- 회사 내부 또는 공용 공간에 설치됨
- 물리적 또는 논리적으로 분리된 독립적인 공간
- ’원본데이터‘의 AI 학습목적 이용이 자유로이 허용되는 고립된 공간
- 설치시 정부의 인증을 받음
17. - 17 -
○ 안전구역의 운영
- 안전구역에서 원본데이터를 활용하는 자는 유출 등에 대하여 엄격
한 책임을 부담함
- 안전성 확보조치 등에 대하여 정부의 정기적인 인증을 받고 엄격한
관리를 받음
- 원본데이터 기부 등을 받아서 광범위한 데이터풀을 형성할 수 있음