법무법인 린 - 이루다가 쏘아올린 데이터법과 인공지능 윤리 이슈와 과제

이루다가 쏘아 올린 데이터법과 AI윤리 이슈와 과제
주최
2021. 04. 14

I. 발 제 자 료
- 양천수 교수 (영남대학교 법학전문대학원)
- 정경오 변호사 (법무법인 린)
II. 토 론 문
- 이동진 교수 (서울대학교 법학전문대학원)
- 문정욱 센터장 (정보통신정책연구원)
- 백대용 변호사 (법무법인 세종)
- 김병필 교수 (카이스트 기술경영학부)
- 최성진 대표 (코리아스타트업포럼)
- 구태언 변호사 (법무법인 린, TMT/정보보호팀 리더)

이루다 서비스와 개인정보
수집〮제공의 법적 이슈와 대안
(2021. 4. 14)
영남대학교 법학전문대학원
양 천 수

《발표 순서》
Ⅰ. 이루다 서비스의 이슈
Ⅱ. 카카오톡 대화의 이슈
Ⅲ. 개인정보 동의에 관한 이슈
Ⅳ. 대안 모색

I. 이루다 서비스의 이슈
1. 인공지능 서비스 개발의 흐름
○ 인공지능 기획 ⇒ 인공지능 및 알고리즘 설계 ⇒ 데이터 수집 및 처리
⇒ 시장 출시 및 사회적 사용
※ 인공지능의 작동 요소
- 하드웨어
- 알고리즘
- 데이터
2. 인공지능의 위험
○ 인공지능 및 알고리즘 설계의 위험
○ 데이터의 수집 및 처리의 위험
○ 인공지능 사회적 사용의 위험

3. 이루다 서비스의 이슈
○ AI 설계 방식의 문제?
- 기술적 문제?
- 생성 모델(generative model) or 검색 모델(retrieval model)?
○ 설계 방식의 편향성과 기획의 실패?
- 이루다를 20대 여성으로 설계한 것의 편향성?
- 실제로 누구를 대상(이용자)으로 염두에 둔 것인가?
- 젠더 이슈
○ 데이터 수집 및 처리의 문제?
- 데이터 수집의 문제?
- 데이터 가명처리의 문제?

○ 인공지능 윤리의 문제?
○ 챗봇의 한계?
- 상호작용적 소통의 한계?
- 인간 상대방에 동조하는 챗봇의 한계?
○ 개인정보 보호 및 이용 정책의 방향은?
4. 발표 방향
○ 개인정보 수집〮제공의 개별 이슈 분석에 집중
○ 대안은 간략하게 모색

II. 카카오톡 대화의 이슈
1. 기본적 사실관계와 이슈
○ ”스캐터랩”(Scatter Lab)은 자사의 연애 컨텐츠 서비스 ”연애의 과학”을 통해 수
집한 카카오톡 대화를 이용하여 “이루다 서비스”를 개발
⇒ 제공된 카카오톡 대화가 개인정보에 해당하는지, 더 나아가 민감정보에 해당하는
지 문제
2. 카카오톡 대화는 개인정보인가?
○ 대화 내용의 성격
○ 대화 상대방(발화자)의 의도
○ 「개인정보 보호법」이 규정하는 개인정보의 의미와 외연(제2조 제1호)

3. 카카오톡 대화는 민감정보인가?
○ 민감정보란?(법 제23조 제1항)
○ 민감정보로서 카카오톡 대화
- “연애의 과학” 서비스의 성격
- 민감정보에 해당
- 민감정보에 대한 더욱 강력한 규제
- 민감정보에 처분불가능 규칙이 아닌 강화된 동의규칙이 적용

III. 개인정보 동의에 관한 이슈
1. 기본적 사실관계와 이슈
○ “연애의 과학”에서 카카오톡 대화를 수집할 때 개인정보 동의 및 민감정보에 대
한 동의를 대화 당사자로부터 모두 받았는지 문제
⇒ “스캐터랩”은 받았다고 주장하는 반면 당사자들은 받지 않았다고 주장
○ “연애의 과학”에서 “이루다 서비스” 개발을 위해 카카오톡 대화를 제공할 때 대화
당사자들의 동의를 받았는지 문제
⇒ “스캐터랩”은 “신규서비스 개발”에 대한 동의를 받았다고 주장
⇒ 당사자들은 “이루다 서비스”는 “신규서비스 개발”에 해당하지 않는다고 주장
○ “이루다 서비스”를 개발할 때 카카오톡 대화에 대한 가명처리가 제대로 이루어졌
는지 문제
⇒ “스캐터랩”은 가명처리가 제대로 이루어졌다고 주장하는 반면 당사자들은 개인
정보가 노출되었다고 주장

2. 카카오톡 대화 제공에 관한 기본적 동의 이슈
○ “연애의 과학”에서 카카오톡 대화를 수집할 때 개인정보 동의 및 민감정보에 대
한 동의를 대화 당사자로부터 모두 받았는지 문제
⇒ “스캐터랩”은 받았다고 주장하는 반면 당사자들은 받지 않았다고 주장
○ “연애의 과학” 서비스의 구조와 조건
○ 카카오톡 대화 제공에 대한 기본적 동의 이슈
- 카카오톡 대화는 개인정보이므로 법 제15조 제1항에 따른 동의 필요
- 카카오톡 대화 제공에 대화 당사자의 동의를 모두 받았는가?
- “연애의 과학”은 이 점을 명확하게 고지했는가?
※ 묵시적 동의 법리 적용?
※ 누구에게 대화 제공의 책임이 있는가?

3. 민감정보 제공에 대한 별도의 동의 이슈
○ 민감정보로서 카카오톡 대화
○ 법 제23조 제1항 제1호에 따른 별도의 동의를 받았는가?
○ “연애의 과학”은 이 점을 명확하게 고지했는가?

4. 이루다 서비스 개발을 위한 대화 제공에 관한 동의 이슈
○ “연애의 과학”에서 “이루다 서비스” 개발을 위해 카카오톡 대화를 제공할 때 대화
당사자들의 동의를 받았는지 문제
⇒ “스캐터랩”은 “신규서비스 개발”에 대한 동의를 받았다고 주장
⇒ 당사자들은 “이루다 서비스”는 “신규서비스 개발”에 해당하지 않는다고 주장
⇒ 당사자들은 “신규서비스 개발“은 “연애의 과학”과 유사한 연애 상담 서비스 개발
로 이해한 것으로 보임
○ 대화 제공에 대한 별도의 동의를 받았는가?(법 제15조 제1항 또는 제17조 제1항)
- “스캐터랩”은 ‘신규서비스’ 개발에 대한 제공 동의를 받았다고 주장
- “연애의 과학”은 이 점을 명확하게 고지했는가?
- 이는 법 제15조 제1항의 동의인가 제17조 제1항의 동의인가?
⇒ 정보를 제공받는 사업자가 누구인가?

○ 이루다 서비스가 ‘신규서비스’에 해당하는가?
- ‘신규서비스’ 문언의 해석 문제
⇒ 약관 or 법률행위 해석 문제?
⇒ 문법적 해석 or 자연적 해석 or 규범적〮목적론적 해석?
- 신규서비스 판단의 고려 요소
▪ 의미 내용의 구체성 및 예견 가능성
▪ “연애의 과학 서비스”의 유료적 측면
▪ 민감정보 제공에 대한 정보주체의 부담
▪ “연애의 과학 서비스”와 “이루다 서비스”의 비교
○ ‘신규서비스’에 대한 동의 방식은 목적명확성 원칙(법 제3조 제1항) 일탈?

5. 카카오톡 대화 제공 동의의 예외에 관한 이슈
○ “이루다 서비스”를 개발할 때 카카오톡 대화에 대한 가명처리가 제대로 이루어졌
는지 문제
⇒ “스캐터랩”은 가명처리가 제대로 이루어졌다고 주장하는 반면 당사자들은 개인
정보가 노출되었다고 주장
○ 개인정보 제공 동의의 예외(법 제15조 제3항 또는 제17조 제4항)(2020.2.4. 신설)
- 당초 수집 목적과 합리적으로 관련된 범위
- 정보주체에게 불이익이 발생하는지 여부
- 암호화 등 안전성 확보에 필요한 조치
※ 법 시행령 제14조의2
▪ 당초 수집 목적과 관련성이 있는지 여부
▪ 개인정보를 수집한 정황 또는 처리 관행에 비추어 볼 때 개인정보의 추가적인 이
용 또는 제공에 대한 예측 가능성이 있는지 여부
▪ 정보주체의 이익을 부당하게 침해하는지 여부
▪ 가명처리 또는 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부

○ 당초 수집 목적과 합리적으로 관련된 범위?
- 개인정보의 추가적인 이용 또는 제공에 예측가능성이 있는가?
○ 정보주체의 이익이 침해되었는가?
- 정보주체의 불안감인가 실질적으로 침해되었는가?
- 가명처리의 성공 여부
○ 가명처리가 성공하였는가?
- 가명처리란?
⇒ 법 제2조 제1의2호: “가명처리”란 개인정보의 일부를 삭제하거나 일부 또는 전부
를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리
하는 것
- 단순히 구체적인 정보가 제공되었다는 것만으로 가명처리가 되지 않았다고 볼 것
인가?

6. 가명정보 처리의 특례가 적용될 수 있는가?
법 제28조의2(가명정보의 처리 등) ① 개인정보처리자는 통계작성, 과학적 연구, 공
익적 기록보존 등을 위하여 정보주체의 동의 없이 가명정보를 처리할 수 있다.
② 개인정보처리자는 제1항에 따라 가명정보를 제3자에게 제공하는 경우에는 특정
개인을 알아보기 위하여 사용될 수 있는 정보를 포함해서는 아니 된다.

IV. 대안 모색
1. 개인정보 거버넌스의 문제
○ 개인정보 보호와 이용의 대립
○ 개인정보 보호 방식
- 자유주의(주관주의)와 동의규칙(property rule)
- 후견주의(객관주의)와 보상규칙(liability rule) 및 처분불가능 규칙(inalienability)
- 동의규칙과 후견주의의 절충으로서 사후승인(opt-out)
○ 우리 「개인정보 보호법」의 보호 방식
- 동의규칙으로서 개인정보 자기결정권
- 예외 ⇒ 포괄적 동의, 예외 확장
○ 공리주의와 개인정보 이용

2. 개인정보 거버넌스 개선 모색
○ 동의규칙 완화와 보상규칙 강화?
○ 개인정보 제공에 대한 반대급부 강화?
- 거래행위로서 개인정보 제공
- 반대급부 강화 ⇒ 서비스 제공 강화, 요금 면제, 바우처 제공 etc.
○ 과학기술을 이용한 동의 실질화?
- 역동적 동의(dynamic consent)
- 과학기술을 이용한 개인정보 동의 실질화, 인공지능 활용 방안
⇒ architectural regulation or privacy by design
- 역동적 동의를 수행하는 제3의 공적 기관 모색?
※ OECD 데이터 거버넌스 법안의 데이터 이타주의
3. 학습용 데이터 댐 구축
4. 혁신적 스타트업과 규제 샌드박스(regulatory sandbox)

이루다 서비스의
AI 윤리 이슈와 대안
정경오 변호사
2021. 4. 14.

Contents
001Intro
002 AI의개발역사
 편향성
 기술적 안전성
 프라이버시 침해
003 논의되는윤리적쟁점들
 각국의 대응
 각 기업의 대응
004 AI윤리에관한각국및각기업의대응현황
 대안
 LIN업무사례
005 맺으며

001
Intro
이루다 서비스의 AI 윤리 이슈와 대안

002
AI 개발의 역사

2
002 AI 개발의 역사
인간처럼 생각하는 기계, 인공지능의 등장
7
1956년, 미국 다트머스 대학의 존 매카시 교수가 개최한 다트머스
회의를 통해 처음으로 인공지능(AI)라는 용어가 사용되기 시작
규칙에 기반한 초기 인공지능 연구는 간단한 문제 풀이 수준을
넘어서지 못하면서 한계에 도달
Reference: NVIDIA Korea, “인공지능(AI)은 어떻게 발달해왔는가, 인공지능의 역사”, https://blogs.nvidia.co.kr/; 맹기완, “야밤의 공대생 만화”, https://www.facebook.com/engineertoon/

2
스스로 학습하는 인공지능, 빅데이터와 머신러닝
8
1980년대 컴퓨터에 지식과 정보를 학습시키는 연구가 이루어지며
머신 러닝(Machine Learning) 및 그에 기반한 전문가 시스템(Expert
System)들이 등장하였으나, 방대한 데이터 처리에 대한 한계에
부딪혀 인공지능 연구는 다시한번 빙하기를 맞이함
이 시기 제프리 힌튼 교수는 인간의 뇌를 모방한 인공지능 연구를
시작하여 1983년 “나는 뇌의 작동원리를 알아냈다”라는 명언을
남겼으나 당시에는 성능의 한계로 실패를 겪음

2
인간의 뇌를 모방하다, 딥러닝 알고리즘
9
그러나, 힌튼 교수는 2000년대에 이르기까지 포기하지 않았으며, 결국
ILSVRC* 2012 우승으로 인간의 뇌를 모방한 신경망 네트워크(Neural
network) 구조로 이루어진 딥러닝 알고리즘의 우수성을 입증
이후 딥러닝은 요슈아 벤지오, 얀 레쿤, 앤드류 응과 같은 세계적인
구루들에 의해 더욱 발전했고, 하드웨어 성능 향상에 힘입어 기존의
인공지능 연구와 궤를 달리하는 속도로 발전하고 있음
* ImageNet Large Scale Visual Recognition Challenge의 약자로 2010년 시작되어 매년 열리고 있는 이미지 인식 경진대회

2
인간의 뇌를 모방하다, 딥러닝 알고리즘
10
2016년 3월 딥러닝 기반 인공지능 바둑 프로그램 알파고(AlphGo)는
이세돌 9단과의 대국에서 4승1패로 승리하였으며, 그 이후 한국, 중국,
일본의 기사들과의 대국에서 모두 승리
이후 알파고 외에도 중국의 싱텐(刑天), 일본의 딥젠고(DeepZenGo) 등
인공지능 바둑 프로그램에서도 딥러닝이 대세가 됨
Reference: 국민일보, “알파고∙이세돌 세기의 대결이 몰고 온 두가지 ‘5000년 인간 바둑‘ 뒤집어졌다”, http://news.kmib.co.kr/article/view.asp?arcid=0923464416

003
논의되는 윤리적 쟁점들

3
003 논의되는 윤리적 쟁점들
편향성
12
편향성
(偏向性, bias)
데이터 또는 AI 개발자가 무의식에 내포하고 있는 경향이나 생각이
AI에 고스란히 반영되는 현상
현실자체에서 편향 또는 차별이 이미 존재하기 때문인가?
편향된 학습데이터나 개발자가 영향을 주었기 때문인가?
Reference: 변순용, “데이터 윤리에서 인공지능 편향성 문제에 대한 연구”, 윤리연구 제128호

3
편향성
13
1. Microsoft가 만든 Twitter Chatterbot ‘Tay’
인종 차별, 성 차별 발언
자극적인 정치적 발언
부적절한 정보 제공에 따른 인공지능 편향 유도
2016. 3.25. 공개한지 16시간만에
서비스 중단

3
편향성
14
1. Microsoft가 만든 Twitter Chatterbot ‘Tay’

3
편향성
15
2. SCATTER LAB의 이루다
사회적 소수자에 대한 혐오와 차별 발언
AI에 대한 성적 대상화
개인정보 무단 활용 및 유출 가능성

3
편향성
16

3
편향성
17

3
기술적 안전성
18
기술적 안전성
(安全性, Safety)
AI를 활용하는 과정에서 보장되어야 하는 안전, 그리고 그 책임주체
자율주행자동차(AI) 사고 책임의 주체는 누구인가?
왜 자율주행자동차(AI)는 누군가를 죽이도록 설계되어야 하는가?
Reference: Bonnefon, Jean-François, Azim Shariff, and Iyad Rahwan. "The social dilemma of autonomous vehicles." Science 352.6293 (2016): 1573-1576.
MIT Technology Review, “Why Self-Driving Cars Must Be Programmed to Kill”, 2015. 10. 22

3
기술적 안전성
19
자율주행자동차의 윤리적 딜레마
a상황에서 가드레일에 위치한 보행자가 어린 아이고 10명의 보행자는 모두 나이든
노인들이라면, 또는 그 어린아이가 탑승자의 자녀이거나 10명의 노인 중에 내 부모가
포함되어 있다면 탑승자는 단순히 보행자 숫자의 많고 적음에 따라, 아님 자신의 안위에
따라 동일한 결정을 내릴 수 있을 것인가?
• 자율주행차의 윤리적 딜레마는 이처럼 단순히 ‘최대다수 최대행복’ 이라는 공리주의
명제로만은 쉽사리 해결되지 않음
Reference: 류준범, “자율주행차 기술과 윤리문제”, 한국자동차산업협회 Web Journal Vol. 326, http://www.kama.or.kr/jsp/webzine/201605/pages/issue_03.jsp

3
프라이버시 침해
20
Reference: 심홍진, “인공지능(AI)과 프라이버시의 역설: AI 음성비서를 중심으로”, KISDI Premium Report 2018-12
(私生活, Privacy)
AI개발을 이유로 또는 AI로부터 개인의 사생활, 개인정보를 침해 받는 현상
‘프라이버시 역설’*은 피할 수 없는가?
* 지능화된 서비스가 증가할 수록 이용자들은 첨단 기능이나 필수적인 서비스 이용을 위해
개인정보 활용을 스스로 허락해야 하는 역설
이용자의 AI 니즈(needs)와 프라이버시 보호는 어디에서 균형을
찾아야 하는가?

21
Reference: 김지연 기자, “아마존 AI비서 뒤에 사람 있다. 수천명이 음성기록 분석”, 2019. 4.11. 연합뉴스, https://www.yna.co.kr/view/AKR20190411126900009
1. Amazon 알렉사(Alexa) 등 AI스피커 사례
2019년 4월, 블룸버그통신이 아마존 직원 수천명이 AI 알렉사(Alexa)가 탑재된
AI스피커 에코(Echo)를 사용하는 고객들의 집과 사무실에서 녹음된 음성
파일을 듣고 있다고 보도
Amazon 은 “ 우 리 는 당 신 이 알 렉 사 에
요청한 것을 음성 인식과 자연언어 이해
시스템 훈련을 위해 사용한다” 밝히고
있 지 만 , 녹 음 된 음 성 파 일 을 사 람 이
듣는다는 점을 명시적으로 밝히지 않고
있어 프라이버시 침해 가능성 존재
(알렉사는 환경설정에서 사용자가 새 기능
개발을 위해 자신의 음성 녹음 사용을 하지
못하게 하는 비활성화 옵션은 제공)
3

22
Reference: Richard Mitev et al., “LeakyPick: IoT Audio Spy Detector”, ACSAC ‘20, https://dl.acm.org/doi/fullHtml/10.1145/3427228.3427277
1. Amazon 알렉사(Alexa) 등 AI스피커 사례
2020년 11월 미국 노스캐롤라이나 주립대학교, 독일 다름슈타트트 대학교,
프랑스 파리 새클레이 대학교 공동 연구진은 AI스피커를 작동시킬 생각이
없는 사용자들의 말을 작동 명령어로 이해하고 대화를 서버에 전송하는
사례를 적발하기 위한 실험을 수행한 결과를 발표
공동연구진이 개발한 장치인 ‘리키픽(Leaky Pick)’을 이용한 실험 결과, 표준
Wake-Word인 “알렉사(Alexa)”와는 음운적으로 매우 다른 “알라차(alachah)”,
“레치너(lechner)”, “일렉트로텔레그래픽(electrotelegraphic)” 같은 단어를
포함하여 89개의 단어를 작동 명령어로 신뢰하는 반응을 보였으며, 이 잘못된
단어들에 뒤따르는 음성을 녹음한 데이터를 아마존 클라우드 서버로 전송함
3

23
2. SCATTER LAB의 “연애의 과학” 데이터 무단 사용 논란
이용자가 제공한 카카오톡 대화 자료를 통해 연애 조언을
제공하는 서비스인 ‘연애의 과학’을 통해 수집한 100억
건의 데이터를 비식별화 하여 이루다의 학습에 활용
‘연애의 과학’ 서비스 팀에서 근무했던 직원이
<뉴스1>과의 인터뷰에서 "이루다 개발팀에서 수집된
사용자의 특정 대화 내용 중 연인 간의 성적인 대화,
농담을 캡처해 사내 메신저 단체방에 공유하는 일도
있었다"며 "내부에서는 이를 심각하게 여기지 않고
웃어넘겼다"고 폭로
Reference: 김남영 기자, “이루다 말투, 왜 나와 비슷한가 싶더니… 카톡 대화 수집 논란”, 2021.1.10. 한국경제, https://www.hankyung.com/society/article/202101105320i
김정현 기자, “이루다 前직원 ＂연인간 성적인 대화, 캡처돼 사내 메신저 공유“”, 2021.1.12. 뉴스1, https://www.news1.kr/articles/?4178001
3

24
2. SCATTER LAB의 “연애의 과학” 데이터 무단 사용 논란
SCATTER LAB은 2020년 9월경부터 온라인 소스코드 저장소 깃허브(GitHub)에
자신들이 개발한 카카오톡 대화 데이터로 학습하는 인공신경망 모델을 공개
이 소스코드에는 카카오톡 데이터 100건이 훈련 데이터로 공유되어 있었고,
해당 데이터에 포함된 1700건의 카카오톡 대화에는 20여건의 실명을 포함하여
직장명, 지역명, 지하철역 이름, 도로 및 근처 영화관 이름 등 해당 인물들의
생활을 추정할 수 있는 정보가 포함된 사실이 개발자 커뮤니티에서 논란이 되자
공개된 프로젝트 삭제
Reference: 이효석 기자, “'이루다'에 쓰인 카톡 1천700건, 4개월간 온라인에서 공유됐다”, 2021.1.13. 연합뉴스, https://www.yna.co.kr/view/AKR20210113114300017
3

004
AI 윤리에 관한 각국 및 각 기업의 대응현황

4
004 AI 윤리에 관한 각국 및 각 기업의 대응현황
논의중인 인공지능(AI) 윤리의 공통 분모들
26
인간 존중
공중의 참여, 투명성을 통한 신뢰 확보
공정성의 추구
다양성의 추구
프라이버시의 보호
기술적 안전성과 보안의 확립
1
2
3
4
5
6

004 AI 윤리에 관한 각국의 대응현황
EU: Framework for Trustworthy AI (2019. 4.)
27
Reference: European Commission 공식 홈페이지, https://ec.europa.eu/futurium/en/ai-alliance-consultation
Foundation of
Trustworthy AI
(신뢰할 수 있는
AI의 기초)
 Respect for human autonomy (인간 자치의 존중)
 Prevention of harm (위해의 방지)
 Fairness (공정성)
 Explicability (설명 가능성)
Realization of
Trustworthy AI
AI의 실현)
 Human agency and oversight (인간 기관과 감독)
 Technical robustness and safety (기술적 번창과 안전)
 Privacy and data governance (프라이버시와 정보 규제)
 Transparency (투명성)
 Diversity, non-discrimination and fairness (다양성, 비차별, 공정
성)
 Societal and environmental wellbeing (사회적, 환경적 행복)
 Accountability (책임성)
Assessment of
Trustworthy AI
AI의 평가)
 AI시스템에 대한 요구사항과 솔루션 평가 기준 확립
 AI시스템의 라이프사이클 전반에 걸쳐 성과를 개선하고 이에
대한 이해관계자 참여 등
4

미국 백악관: Guidance for Regulation of Artificial Intelligence Applications (2020. 11.)
28
Reference: 미국 백악관 공식 홈페이지, https://www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf
1. Public Trust in AI (AI에 대한 공공의 신뢰)
AI적용 과정에서 프라이버시, 개인의 권리, 시민의 자유 등이 침해되지 않도록 함으로써 공공의
신뢰를 확보
2. Public Participation (일반 대중의 참여)
AI 개발에 있어서 개인의 정보를 제공할 수 있도록 대중의 참여를 유도
3. Scientific Integrity and Information Quality (과학적 완결성과 정보의 질)
AI를 훈련시키기 위해 사용되는 정보는 높은 질을 유지 해야 함
4. Risk Assessment and Management (위험 평가와 관리)
AI 사용과 관련된 위험의 분석 및 관리
5. Benefits and Costs (편익과 비용)
AI를 적용하였을 때 예상이 되는 편익과 비용을 분석
4

미국 백악관: Guidance for Regulation of Artificial Intelligence Applications (2020. 11.)
29
Reference: 미국 백악관 공식 홈페이지, https://www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf
6. Flexibility (유연성)
AI를 개발함에 있어서 각 정부기관은 성과 중심적이고 유연한 접근법을 구사할 것
7. Fairness and Non-discrimination (공정함과 비차별)
편견이 AI적용에 반영되지 않도록 공정하고도 비차별적 접근을 구사할 것
8. Disclosure and Transparency (공개와 투명성)
AI에 관한 규제를 도입할 경우에는 이를 공개적이고도 투명한 방식으로 할 것
9. Safety and Security (안전과 보안)
안전하고도 보안성이 강한 AI를 개발할 것
10.Interagency Coordination (기관간 협조)
4

일본 내각: 인간중심의 AI 사회 원칙 2018 (2018. 3.)
30
Reference: 人間中心のＡI社會原則(人間中心のＡI社會原則檢討會議, ’18.3), https://www8.cao.go.jp/cstp/tyousakai/humanai/ai_gensoku.pdf
기본이념
 인간의 존엄성이 존중되는 사회
 다양한 배경을 가진 사람들이 다양한 행복을 추구할 수
있는 사회
 지속성 있는 사회
AI-Ready 사회
 사람: 인공지능의 장단점 이해, 융복합형 인재 양성
 사회시스템: 의료, 금융, 보험, 교통, 에너지 등 사회시스템
전체가 AI의 진화에 유연하게 대응 변화
 산업구조: 글로벌화, 유연한 고용환경
 혁신시스템: 대학, 연구기관, 기업 등이 서로 혁신을 자극
 거버넌스: 이상의 4가지에서 논의되는 내용과 목표가
실시간으로 반영될 수 있는 거버넌스 필요
인간 중심의
AI사회 7원칙
 인간중심의 원칙
 교육/교양의 원칙
 개인정보 확보의 원칙
 보안확보의 원칙
 공정경쟁확보의 원칙
 공정성, 책임 및 투명성의 원칙
 혁신의 원칙
4

과학기술정보통신부 국가 인공지능 윤리기준(안) (2020. 11.)
31
Reference: 과학기술정보통신부, [보도자료] 과기정통부, 사람이 중심이 되는 「국가 인공지능 윤리기준」(안) 공개, 2020. 11. 27.
3대 기본원칙
‘인간성을 위한 인공지능(AI for Humanity)’을 위해 인공지능 개발 및 활용 과정에 이르는 전
과정에서 고려되어야 할 기준을 3대 기본원칙을 제시
1. 인간 존엄성의 원칙
인간은 기계제품과는 교환 불가능한 가치, 인공지능은 해가 되지 않는 범위에서 개발 및 활용,
인공지능의 개발 및 활용은 인간에게 해가 되지 않도록 해야 함
2. 사회의 공공선 원칙
가능한 많은 사람의 안녕과 행복 추구, 사회적 약자와 취약계층의 접근성이 보장되고 인류의
보편적 복지를 향상 시킬 수 있도록 인공지능 개발 및 활용
3. 기술의 합목적성 원칙
인류의 삶에 필요한 도구라는 목적과 의도에 부합되게 활용되어야 하며, 그 과정도
윤리적이어야 함. 인류의 삶과 번영을 위한 인공지능 개발 및 활용을 장려
4

과학기술정보통신부 국가 인공지능 윤리기준(안) (2020. 11.)
32
Reference: 과학기술정보통신부, [보도자료] 과기정통부, 사람이 중심이 되는 「국가 인공지능 윤리기준」(안) 공개, 2020. 11. 27.
10대 핵심요건
3대 기본원칙을 실천하고 이행할 수 있도록 인공지능 전체 생명 주기에 걸쳐 충족되어야 하는
10가지 핵심 요건을 제시
1. 인권보장
인간중심, 인간의 권리와 자유 보장
2. 프라이버시 보호
사생활 보호, 개인정보 오용 최소화
3. 다양성 존중
다양성/접근성 보장, 편향 최소화
4. 침해금지
인간에 무해한 목적으로 활용
5. 공공성
인류 공동의 이익 목적, 순기능 극대화
6. 연대성
이해관계자 참여기회 보장, 집단간 협력
7. 데이터 관리
목적 외 활용금지, 데이터 품질/위험 관리
8. 책임성
주체 별 책임의 명확화
9. 안정성
잠재적 위험 방지, 안전 보장
10.투명성
설명 가능성, 활용 및 유의사항 사전고지
4

4차산업혁명위원회 사람이 중심이 되는 인공지능 윤리기준 의결 (2020. 12.)
33
Reference: 4차산업혁명위원회, [보도자료] 4차산업혁명위원회 제19차 전체회의 개최, 2020.12.23; 정보통신정책연구원, “인공지능 윤리기준과 추진과제”, 사람 중심의 인공지능(AI) 구현을 위한 정책 세미나 발표자료
4

004 AI 윤리에 관한 각 기업의 대응현황
Artificial Intelligence at Google: Our Principles (2018. 6.)
34
Reference: Google 공식 홈페이지, https://ai.google/principles/
Objectives for AI applications
We will assess AI applications in view of the following objectives. We believe that AI should:
1. Be socially beneficial.
2. Avoid creating or reinforcing unfair bias.
3. Be built and tested for safety.
4. Be accountable to people.
5. Incorporate privacy design principles.
6. Uphold high standards of scientific excellence.
7. Be made available for uses that accord with these principles.
4

Artificial Intelligence at Google: Our Principles (2018. 6.)
35
AI applications we will not pursue
In addition to the above objectives, we will not design or deploy AI in the following application areas:
1. Technologies that cause or are likely to cause overall harm. Where there
is a material risk of harm, we will proceed only where we believe that
the benefits substantially outweigh the risks and will incorporate
appropriate safety constraints.
2. Weapons or other technologies whose principal purpose or
implementation is to cause or directly facilitate injury to people.
3. Technologies that gather or use information for surveillance violating
internationally accepted norms.
4. Technologies whose purpose contravenes widely accepted principles of
international law and human rights.
Reference: Google 공식 홈페이지, https://ai.google/principles/
4

네이버 AI 윤리 준칙 (2021. 2.)
36
Reference: [발표자료: SAPI-NAVER 공동웨비나] NAVER 송대섭 이사, 네이버 AI 윤리 준칙의 방향성, 2021. 2. 17.
1. 사람을 위한 AI 개발
네이버가 개발하고 이용하는 AI는 사람을 위한 일상의 도구입니다. 네이버는 AI의 개발과
이용에 있어 인간 중심의 가치를 최우선으로 삼겠습니다.
2. 다양성의 존중
네이버는 다양성의 가치를 고려하여 AI가 사용자를 포함한 모든 사람에게 부당한 차별을 하지
않도록 개발하고 이용하겠습니다.
3. 합리적인 설명과 편리성의 조화
네이버는 누구나 편리하게 AI를 활용하도록 도우면서, 일상에서 AI의 관여가 있는 경우
사용자에게 그에 대한 합리적인 설명을 하기 위한 책무를 다하겠습니다. 네이버는 AI에 관한
합리적인 설명의 방식과 수준이 다양할 수 있다는 점을 고려해, 이를 구체적으로 실현하기
위하여 노력하겠습니다.
4. 안전을 고려한 서비스 설계
네이버는 안전에 유의하여, 서비스의 전 과정에서 사람에게 유해한 영향을 미치지 않는 AI
서비스를 설계하겠습니다.
5. 프라이버시 보호와 정보 보안
네이버는 AI를 개발하고 이용하는 과정에서 개인정보 보호에 대한 법적 책임과 의무를 넘어
사용자의 프라이버시가 보호될 수 있도록 노력하겠습니다. 또한 개발 단계를 포함해 AI
서비스의 전 과정에서 정보 보안을 고려한 설계를 적용하겠습니다.
4

005
맺으며

5
005 맺으며
대안
38
인공지능 시대에 대비한 전담부처 지정
인공지능의 활용, 인공지능의 부작용 방지 등을 전담하는 부처 지정 필요
부처간 AI 선점을 위한 AI 윤리 및 기준 제정 경쟁 심화
AI 규제 프레임워크의 전환 필요
AI 윤리헌장은 강제성이 없는 자율 규범
AI 윤리 제정이 규제 입법의 전단계로 전개되는 것은 지양(止揚)
AI에 대한 자율규제 또는 탈규제 도입을 통해 AI규제 프레임워크의 전환 필요
자율규제 활성화
2018. 1. 31. 카카오 알고리즘 윤리헌장 제정
정부의 개입 없이 AI윤리헌장을 마련함으로써 자율규제 활성화 계기
Reference: 카카오 공식 홈페이지, https://www.kakaocorp.com/kakao/ai/algorithm

005 맺으며
대안
39
AI 알고리즘 공개 기준∙범위 등 투명성 확보 필요
알고리즘은 AI를 구현하는 핵심 요소로 정치∙사회∙경제∙문화 전반의 의사결정에 중대한 영향
AI 편향성, 오류를 방지하기 위한 알고리즘 공개 기준∙범위 등 투명성 제고 방안 마련 필요
법률이 아닌 계약을 통해 설명요구권, 이의제기권 인정 가능
 설명요구권
알고리즘에 대한 설명요구권 V.S. 알고리즘이 공개될 경우 기업의 영업비밀 침해 우려
GDPR은 알고리즘 편향성 및 오류를 방지하기 위하여 설명요구권 인정(GDPR 제13조, 제22조)
 이의제기권
알고리즘 적용 결과에 이의를 제기하고 해명과 확인을 요구할 수 있는 권리
AI생태계 조성을 위한 노력 필요
AI 기반의 서비스 ∙ 플랫폼의 영향력 확대에 대응한 사회적 책임 및 상생 노력 필요
AI기반 서비스∙ 플랫폼 사업자의 자율규제 및 탈규제 노력
5

005 맺으며
LIN 업무사례 1 - AI를 활용한 MRI 가속화 기술 자문
40
기술내용: 기존에 촬영된 수많은 MRI 영상을 익명화 된 상태로 병원으로부터
제공받아 이를 딥러닝 기법을 통해 학습을 시킨 후, 짧은 시간 촬영
만으로도 원래의 촬영 방식과 거의 차이가 없는 MRI 이미지를 생성
업무내용: LIN은 개인정보보호법, 생명윤리법 및 보건의료데이터 활용
가이드라인상의 규제를 면밀히 검토하여 법률자문을 제공
프라이버시를 최대한 보장하면서도, 인공지능을 최대한 활용하여 의료 기술의
발전을 추구한 사례
5

005 맺으며
LIN 업무사례 2 - AI시대 규제 패러다임 전환과 미래지향 법제도 정립 방안 연구
41
수행기관: 한국규제학회, 창조경제연구회, 법무법인 린
사업기간: 2020. 4. 1. ~ 2020. 12. 31.
연구목적 및 내용
5

질문 답변
Q & A

감사합니다
법무법인린
www.law-lin.com
서울특별시서초구서초대로347,6,8,10,14층(서초크로바타워)
Tel.:02-3477-3003Fax:02-3477-3619E-mail:lin@law-lin.com

이루다가 쏘아올린 데이터 법과
AI 윤리 이슈와 과제 목차
1. 이동진 교수 (서울대 법학전문대학원) ·····································1
2. 문정욱 센터장 (정보통신정책연구원) ·····································4
3. 백대용 변호사 (법무법인 세종) ·············································9
4. 김병필 교수 (카이스트 기술경영학부) ···································13
5. 최성진 대표 (코리아스타트업포럼) ·······································20
6. 구태언 변호사 (법무법인린, TMT/정보보호팀리더) ··············22

- 1 -
“이루다가 쏘아 올린 데이터법과 AI윤리 이슈와 과제” 토론문
이동진 교수 (서울대학교 법학전문대학원)
1. 이루다 서비스가 논란이 된 것은 혐오와 차별을 포함하는 부적절한 대화
때문이었습니다. 이는 다시 이루다의 학습에 쓰인 데이터가 어디에서 나
온 것인지에 대한 의문을 제기하고 그 결과 연애의 과학에서 수집한 대화
데이터를 이루다 학습에 이용한 것이 적법하였는가 하는 논란을 낳았습니
다. 오늘 두 발제가 각각 다룬 이른바 AI윤리 문제와 데이터법 문제입니
다.
2. 먼저, AI윤리 문제부터 말씀드리겠습니다. 문제 된 이루다의 답변은 대체
로 rule에 기초한 것이 아니었고, (1) 학습용 데이터로 제공된 연애의 과
학 이용자들의 대화나, (2) 이루다의 이용자의 특정 반응 유도에 의한 것
이었습니다. 데이터를 이용한 AI 훈련에 있어 garbage in, garbage out은
잘 알려져 있는 문제이고, 충분히 주의를 기울여야 할 부분임은 물론입니
다만, 다른 한편으로 출시단계에서 완전히 해결하기 어려운 문제이기도
합니다. 이용자의 부적절한 반응 유도의 경우도 같습니다. 어린 아이들이
욕설을 재미있다고 따라하거나 어디에선가 들은 이야기로 흑인, 특정지역
또는 외국출신에 대하여 편견을 여과 없이 노정한다 하여 입을 막진 않습
니다. 교육을 합니다. 성인도, 근래 차별금지법과 관련하여 논란거리가 있
기는 합니다만, 그러한 발언에 대하여 법적으로 책임을 지는 일은 드뭅니
다. 그러한 편견에 기초하여, 그 근거도 알지 못한 채, 구체적 법적 이익
이 걸려 있는 처분/결정을 한다면 심각한 문제이겠습니다만, 현 단계의 이
루다는 chatbot이었고, 그렇지 않았습니다. 우리 대부분이 어느 한 측면에
서는 부적절한 편견, 차별, 혐오를 갖고 있음에도 공존할 수 있는 것처럼,
완전무결하게 혐오, 차별, 편견에서 벗어난 AI여야 시장에 나올 수 있다고
할 수는 없을 것입니다. 물론, 이루다는 어린 아이가 아닙니다. 수십만의
이용자에게 하나의 이름으로 서비스하는 chatbot이었고, 그런 점에서 이
서비스의 혐오, 차별은 이루다 또는 그 개발자의 잘잘못을 떠나 의미가
있고 중요성이 있습니다. 그런데 서비스 초기부터 이러한 문제를 개발자
와 이용자, 사회 공동의 과제로 설정하고 지속적으로 개선할 거버넌스와
관련 담론을 주도하기 위한 준비가 부족했고, 그 결과 서비스 자체와 개

- 2 -
발자까지 비난의 대상이 된 측면이 있다고 보입니다. 이는 AI윤리 문제를
예고하는 것이기는 하나 그 자체로 AI윤리 문제라고 하기는 어렵고, 오히
려 AI에 기반한 상품/서비스가 나올 때, 그리고 AI가 우리 삶에 관여하게
될 때, 사회 전반의 AI에 대한 이해증진과 참여/개입을 제도화할 수 있도
록 거버넌스의 설정이 함께 이루어져야 한다는, 어찌 보면 평범한 지혜를
일깨운 경험이 아닐까 생각합니다.
3. 다음, 데이터법 문제를 말씀드리겠습니다. 우선 주목할 지점은, 이 사안에
서 데이터법 문제가 본래의 문제가 아니라 AI윤리 문제가 대두되면서 서
비스가 어떻게 이루어졌는지 되짚어보는 과정에서 불거진 문제에 가깝다
는 사실입니다. 실제로 AI 학습에 개인정보를 쓰는 것이 그 자체 당연히
정보주체의 프라이버시를 ‘실체적으로’ 침해하지는 않습니다. 빅데이터를
현행 개인정보 보호법제에서 적절히 다룰 수 있는가 하는 점에 대하여도
여러 의문이 있습니다. 그러나 이 문제가 다소 ‘문제를 찾아내는’ 방식으
로 제기되었고 실질적 문제라기보다는 현행법의 기술적 문제에 더 가까울
수 있다는 점을 인정하더라도, 여전히 현행법에 부합하는지는 따져볼 필
요가 있습니다. 현행법이 이러한 문제가 있을 수 있음을 몰라 현재와 같
은 형태가 된 것도 아닙니다. 이러한 상황을 타개할 대안을 찾는 것은 우
리뿐 아니라 외국 많은 나라에게도 공통의 과제이고, 이루다와 같은 서비
스가 등장한 이상 우리에게도 시급한 과제가 되었습니다만, 그러한 개선
또는 변화가 이루어지기 전까지는 현행법의 틀을 최대한 존중하고 이용하
여야 합니다. 개인정보 보호법은 있을지도 모르는 위험에 대응하는 것으
로, 그 위험이 실현되지 않을 것이라는 주관적 또는 사후적 판단만으로
적용을 피할 수 없기 때문입니다. 이러한 관점에서 연애의 과학 서비스
자체는 별 문제가 없으나, 그와 별개의 서비스인 이루다 개발에 이 데이
터를 이용한 점, 대화자 중 일방만의 동의로 이 데이터를 수집, 이용한 점
은 모두 특별한 정당화를 요합니다. 아마도 ‘신규서비스 개발’과 같은 추
상적이고 모호한 설명만으로는 적법한 동의가 되기 어려울 것이고, 대화
의 내용이 내밀할 수 있어 목적에 합치하는 이용이라고 주장하여 가명처
리만으로 신규서비스 개발에 쓸 수 있을지도 상당히 의심스럽습니다. 아
쉬운 점은 서비스 개발 단계에서 개인정보 보호법을 충분히 의식하였다면
이러한 논란 대부분을 피할 수 있었을 것 같다는 것입니다. 이루다 서비
스를 개발하는 데 (정보주체가 식별될 수 있는) 개인정보가 필요하였을
것 같지는 않고, 이루다 측에서 주장하는 이른바 ‘비식별처리’ 후 여전히

- 3 -
개인정보로 남은 데이터의 양도 극히 적었을 것입니다. 이루다 서비스는
AI 시대에 개인정보 보호법이, 정보보안의 맥락을 떠나, 서비스 준비단계
에서부터 전문적으로 검토되어야 할 기본적 규제가 되어가고 있음을 보여
주는 예입니다.
4. 마지막으로, 이루다 측의 프라이버시 감수성을 지적하고 싶습니다. 이루다
서비스는 대화자 사이의 내밀할 수도 있는 대화내용을 다른 맥락에 옮겨
사용하는 것으로, 비식별/익명처리가 얼마나 잘 되었는지, 개인정보 보호
법 위반이 있는지와 관계없이 일반적인 프라이버시 우려를 제기할 수 있
습니다. 데이터를 이용하여 서비스를 개발하고 제공할 때 이 문제에 대하
여 충분히 유의하지 아니한다면 이용자와 사회의 신뢰를 얻을 수 없고,
그 결과, 법적 책임 유무와 관계없이, 서비스가 성공할 수 없을 것입니다.
어떻게 보면 법보다도 그러한 점이 더 중요하다고 생각됩니다.
5. 오늘 제가 준비한 토론은 여기까지입니다. 감사합니다.

- 4 -
“이루다가 쏘아올린 데이터법과 AI 윤리 이슈와 과제” 세미나 토론문1)
문정욱 센터장 (KISDI 지능정보사회정책센터)
인공지능 기술이 사회·경제 전반으로 확산되는 가운데, 인공지능 기술의 오
남용, 데이터 편향, 프라이버시 침해, 알고리즘에 의한 차별 등 윤리적 이슈
가 지속적으로 제기되고 있는 가운데 그에 따른 적절한 대응의 필요성이 증
대하고 있는 상황에서, 인공지능 윤리 이슈 및 대응 방향과 관련된 주요 논
점들을 심도 있게 다루어주신 양천수 교수님과 정경오 변호사님의 발제 내
용을 통해 많은 것을 생각해 볼 수 있었습니다. 깊은 통찰력으로 연구내용을
발표해 주신 양천수 교수님과 정경오 변호사님께 깊은 감사의 말씀을 드립니다.
오늘 저는 윤리적 인공지능 기술 활용 확산이라는 정책적 관점에서 인공지
능 윤리 이슈와 과제에 대해서 논의를 드리고자 합니다.
인공지능은 디지털 전환 과정에서 발생하는 경제사회 패러다임의 전환에 있
어 가장 영향력 있는 첨단 ICT기술로 인식되고 있으며, 특히 인공지능으로
인한 사회적 혜택이 사회적 위험보다 많을 것으로 전망되고 있어 시장에서
의 사회적 기대가 높습니다(Forbes, 2019). 그러나 한편으로는 인공지능의 기
술적 특성으로 인해 서비스와 제품 안전, 이용자 보호, 그리고 특정 문제 발
생시 책임관계 규명 등을 위한 법률 적용과 집행에 어려움이 있는 것도 사
실입니다. 또한 사회·제도적으로 인공지능의 잠재적 위험을 효과적으로 통제
할 수 없다는 불신은 이용자의 기술 수용 및 기술로 인한 사회혁신의 기회
를 잃게 할 수도 있습니다.
< AI와 윤리적 이슈>
1) 본 토론문은 “윤리적 인공지능을 위한 국가정책 수립” 연구보고서(KISDI, 2020)와 “제12회 국회도
서관 AI와 윤리 포럼 토론문(문정욱, 2021)”의 일부 내용을 발췌하여 본 토론의 취지에 맞게 재구
성하여 작성하였음을 밝힙니다.
분 야 주요 내용
1. 고용 2. 채용과정의 편향과 차별, 공정성 및 투명성
3. 금융 4. 알고리즘 활용에 따른 이용자 차별과 책임소재 불명확성
5. 교육 6. AI 교육시스템의 개인정보 오남용 위험과 프라이버시 침해
7. 미디어 8. AI 기반 추천서비스 객관성과 디바이스 프라이버시 위협
9. 사법 10. 학습된 편향성에 의한 차별 및 데이터 신뢰성 확보 문제
11. 자율주행차 12. 사고 책임주체 구분 모호 및 사생활 침해 이슈

- 5 -
자료: 정보통신정책연구원 지능정보사회정책센터 내부자료(2020)
인공지능 기술이 우리 실생활 전반에 적용되기 시작하면서 고용, 금융, 교육,
미디어 등 다양한 분야에서 윤리적 이슈가 발생하고 있습니다. 예컨대, 인공
지능 기반 채용시스템에서는 데이터 편향, 판단기준의 불투명성, 기술적 오
류 가능성, 결과의 불분명성 등의 문제가 제기되기도 하였습니다. 또한 얼마
전 크게 사회적 논쟁이 되었던 이루다 사례처럼 인공지능 기반 챗봇 서비스
에서는 개인정보 오남용 가능성, 편향된 데이터 학습에 따른 차별적 발화,
악의적 이용자 개입 등의 문제가 발생할 여지가 있습니다.
무엇보다 인공지능의 개발 및 활용 확산과 기술의 사회적 수용을 위해서 ‘신
뢰’가 필요요건으로 주목받고 있습니다. 인공지능이 ‘공정하고’, ‘투명하게’,
‘제대로’ 사용될 것이라는 ‘신뢰’가 없다면 신기술의 사회적 수용도가 낮아지
게 되고, 이는 신기술이 견인하는 다양한 사회경제적 기회도 잃게 될 가능성
을 높일 수 있습니다. 따라서 인공지능 기술 연구·개발과 활용 활성화를 위
해서는 인공지능 기술과 서비스뿐만 아니라 인공지능 기반의 산업, 시장과
기업, 잠재적 위험의 통제 가능성에 대한 사회적 신뢰가 필요할 것입니다.2)
2020년 KISDI에서 수행한 연구결과3)에 의하면 인공지능 기반의 채용, 가석
방 여부 판단, 추천시스템, 교통 최적화, 공공인프라 관리 등 인공지능 기술
의 활용 영역과 시민의 연령층에 따라 인공지능 서비스에 대한 신뢰 수준에
차이가 있는 것으로 나타났습니다. 이는 인공지능에 대한 사회적 신뢰 수준
을 높이기 위해서는 인공지능의 기술적·사회적·산업적 특성을 세심히 고려하
여 각 영역에 적합한 대응 전략을 마련해야 함을 의미합니다. 이처럼 인공지
능을 사람 중심의 기술로 안착시키고 사회·경제적 긍정적 효과를 극대화하기
위해서는 인공지능에 대한 신뢰 수준을 높이는 것이 무엇보다 우선되어야
한다고 생각합니다. 이러한 인공지능 신뢰 수준을 높이기 위한 방안으로 몇
가지를 생각해 보았습니다.
2) 인공지능의 긍정적 효과에 대한 일반 시민의 신뢰수준을 국가 차원에서 비교한 Edelman(2020) 연
구소 자료에 따르면, 전체 비교 대상 국가 평균은 44점으로 우리나라(46점)는 전체 국가의 평균 수
준을 약간 웃도는 것으로 나타남
3) 자세한 내용은 ‘ICT기반 사회현안 해결방안 연구’보고서(조성은 외, 2020)를 참조
13. 국방 14. 자율살상무기(LAWs) 등장에 따른 윤리적·규범적 이슈
15. 챗봇서비스 16. AI 챗봇의 차별, 혐오 표현과 개인정보 오남용

- 6 -
우선적으로 인공지능 기술에 대한 대중과 이해관계자의 상호존중에 기반한
‘사회적 합의’와 ‘수용성’ 제고 노력이 필요하다고 생각합니다. 인공지능에 대
한 이해도를 높이고 혁신 저항을 낮추는 방안을 모색할 필요가 있습니다. 이
러한 수용성에는 일반시민의 인공지능에 대한 수용성은 물론 기업의 수용성
도 포함됩니다. 즉 기업 규모, 재정, 인력, 기술력에 따라 인공지능 기술을
활용할 수 있는 시스템과 제도가 다를 것으로 예측되는 바, 이러한 기술 수
용의 격차가 발생되지 않도록 대응 체계를 마련해야할 것입니다.
둘째, 인공지능 신뢰 수준 제고를 위해 기업, 정부, 시민사회가 참여하는 신
뢰기반의 협력적 거버넌스를 구축할 필요가 있습니다.4) 기존 정부의 목적 지
향적이고 직접적인 개입 같은 전통적인 정책 접근 방식으로는 불확실성과
복잡성을 내포하는 인공지능의 신뢰를 높이는데 한계가 있으며, 산업전반의
성장을 저해시킬 것이라는 우려도 있습니다. 인공지능을 둘러싼 상반되는 이
해와 공통되는 이익을 조화시키기 위해서는 모든 사회구성원이 인공지능의
다양한 혜택과 잠재적 위험에 대해 공유하고 이를 이해할 필요가 있습니다.
따라서 인공지능 기술과 인공지능이 미칠 광범위하고 다양한 영향과 관련된
이익을 조화시키고, 다양한 이해관계자의 신뢰를 기반으로 인공지능의 혜택
을 극대화하기 위해서는 기업, 학계, 정부, 시민사회가 참여하는 효과적인 거
버넌스 구축은 필수적이라 하겠습니다. 이러한 토대에서 인공지능 관련 정책
과 제도를 논의하는 과정이 이루어져야 누가, 무엇을, 어떻게 결정하는지에
대한 투명성을 담보하고 동시에 인공지능 전반에 대한 사회적 신뢰도 높아
질 것이라고 생각합니다. 예컨대, 정경오 변호사님께서 제안해주신 알고리즘
공개 기준 및 범위 설정과 투명성 확보 노력 등도 이와 같은 협력적 거버넌
스를 통해 이루어진다면 그 실효성도 높아질 것으로 생각합니다.
셋째, 인공지능 윤리를 사회전반에 구현하기 위한 실천 방안과 실행 전략의
모색이 필요합니다. 작년 12월에 정부는 ‘사람이 중심이 되는 인공지능 윤리
기준’을 발표한 바 있습니다. 윤리기준이 영역별·분야별·주체별로 사회 전반
에 정착·확산될 수 있는 기반을 조성하고, 구체적 행동지침 마련으로 인공지
능 신뢰 제고를 위한 자율규제 환경을 조성할 필요가 있습니다. 예컨대, AI
개발자(데이터 확보 및 설계시), 제공자(AI기반 서비스·제품 제공시), 이용자
(AI 제품 구매·활용시)가 기술을 개발하거나 활용·적용할 때 참조할 수 있는
보다 구체적인 윤리 자율점검리스트를 개발하여 보급할 필요가 있습니다. 또
4) 자세한 내용은 ‘윤리적 인공지능을 위한 국가정책 수립’ 보고서(문정욱 외, 2020)를 참조

- 7 -
한 장기적 관점에서는 자율점검리스트 활용을 독려하기 위한 정책적 인센티
브 방안 마련도 고려할 필요가 있습니다. 정경오 변호사님의 발제문에도 나
와 있듯이 국내외 대기업들은 자율적으로 인공지능 윤리헌장, 윤리준칙, 공
정성 점검 툴 등을 마련하여 내부적 규율체계를 확립하고, 보다 윤리적인 인
공지능을 개발하고 활용할 수 있도록 관심을 기울이고 있습니다. 그러나 인
공지능 기술 기반의 스타트업, 중소기업 등은 예산, 인력, 기술 등의 측면에
서 자율적 규제 체계를 확립하는 데 다소 어려움이 있을 것으로 보여집니다.
따라서 인공지능 윤리를 실천할 수 있도록 다양한 기업을 지원할 수 있는
체계 마련이 필요합니다.
<해외 주요 인공지능 윤리 체크리스트 현황>
발표주체 체크리스트
기
업
Microsoft AI 공정성 체크리스트 AI Fairness Checklist ’20.03
Lex Mundi &
Cambrian Futures
법인 법률업무를 위한 AI 준비도 체크리스트
AI Readiness Checklist for Corporate Legal Functions
’20.04
공
공
WEF &
싱가포르 IMDA
AI 거버넌스 프레임워크 지침
Companion to the Model AI Governance Framework
’20.01
EU
신뢰할 수 있는 AI를 위한 자율평가목록
The Assessment List for Trustworthy Artificial Intelligence (ALTAI) for self
assessment
’20.07
영국 ICO AI 및 데이터보호 안내 지침
Guidance on Artificial Intelligence and Data Protection
’20.07
학
계
Carnegie Mellon University‘s
Software Engineering Institute
윤리적 AI 경험 설계 체크리스트
Designing Ethical AI Experiences: Checklist and Agreement
’19.12
자료: 정보통신정책연구원 지능정보사회정책센터 내부자료(2020)
넷째, 인공지능 개발에서 활용까지 전 과정에 걸쳐 다양성 확보가 필요하다
고 생각합니다. 알고리즘과 데이터는 사회적으로 내재된 편견, 불완전성 혹
은 오류로 인해 의도치 않은 편향과 차별을 유발할 수 있는 바, 이러한 문제
를 최소화하기 위해 인공지능 개발 및 활용 전 단계에서 사용자의 다양성과
대표성을 반영할 수 있도록 노력할 필요가 있습니다. 연구 기획 및 개발 단
계에서도 인문 사회과학, 법학, 윤리학 등 다양한 전공자들이 참여할 수 있
는 방안을 고민할 필요가 있습니다.
다섯째, 인공지능 윤리교육이 필요하다고 생각합니다. 유아, 초중고생, 대학
생 및 성인 등을 대상으로 하여 인공지능이 사회에 미치는 영향, 인공지능과
인간의 상호작용, 윤리적 인공지능의 활용, 인공지능과 알고리즘의 원리 등

- 8 -
을 교육할 필요가 있습니다. 이러한 인공지능 교육은 국민의 인공지능 활용
역량 내지는 인공지능 윤리 역량을 제고하고 더 나아가 인공지능에 대한 신
뢰성과 수용성을 더 높이게 하는 촉매제가 될 것이라고 생각합니다. 물론 인
공지능 연구자 및 개발자에 대한 윤리 교육도 필요합니다. 작년 KISDI에서
수행했던 연구결과5)에 따르면, 지능정보사회 이용자 보호 이슈 도출을 위한
전문가 심층조사에 참여했던 산관학연 전문가들은 지능정보사회 이용자 정
책의 방향으로 이용자 스스로 권익을 이해하고 실제 행사에 필요한 역량을
갖추는 것이 필요하며 이를 위해서는 알고리즘 작동원리와 영향력, 설계 구
조 등에 대한 교육이 제공되어야 함을 제시하고 있습니다. 또한 이용자 교육
과 함께 개발자, 제공자에 대한 윤리교육이 필요함을 강조하고 있습니다.
최근 이루다 사례에서 발현된 다양한 인공지능 윤리 관련 쟁점들은 우리사
회에 인공지능이 적용·확산됨에 따라 윤리적 측면에서 고려해야할 여러 가지
사안들을 되짚어 볼 기회를 주었다고 생각합니다. 그러나 이루다 사례가 규
제 강화 필요성 측면만을 강조하여 AI 산업 전반을 저해하는 이슈로 작용되
어서는 안 될 것이라 생각합니다. 이번 이루다 사례는 인공지능 기술의 긍정
적 효과와 잠재적인 부정적 효과를 심층적으로 예측·분석·실증하여 순기능을
극대화하고 역기능을 최소화하기 위한 방안 마련의 필요성에 대한 사회적
요구를 불러일으키고 사회전반의 준비를 촉발시켰습니다. 이러한 시점에서
우리 사회는 발생 가능한 여러 이슈들에 대해 인공지능 생애주기에 걸쳐 참
여하는 이해관계인이 서로 머리를 맞대고 숙의와 토론을 통해 적절한 대안
을 만들어 나가야 할 것입니다. 이 과정에서 인공지능의 잠재적 위험에 대한
과잉규제의 우를 범하지 않기 위해서는 정당한 이윤을 추구하는 기업의 혁
신 성장과 발전을 지원하는 한편 지능정보사회의 이용자 보호를 위한 정책
을 마련하는 등 인공지능 개발 및 활용과 관련된 혁신과 규제의 적절한 균
형점 모색이 필요하다 할 것입니다.
감사합니다.
5) 자세한 내용은 ‘지능정보사회 이용자 보호 환경 조성’ 총괄보고서(이호영 외, 2020)를 참조

- 9 -
백대용 변호사 (법무법인 세종)
20대 여대생을 모델로 한 대화형 인공지능 챗봇 이루다가 야기한 개인정보
이슈 및 AI 윤리 이슈와 관련하여 허심탄회한 논의를 위한 자리가 마련되어
매우 뜻깊은 것 같습니다. 「이루다 서비스와 개인정보 수집, 제공의 법적
이슈와 대안」에 관한 양천수 교수님의 좋은 발제, 그리고 「이루다 서비스
의 AI윤리 이슈와 대안」에 관한 장경오 변호사님의 좋은 발제를 잘 들었습
니다. AI 분야 전문가들의 발제를 듣고 새로운 내용도 많이 배울 수 있었고
참가자분들의 열정과 능력도 엿볼 수 있어 이 자리에 토론자로 참여하게 된
것이 매우 영광스러울 뿐입니다. 금일 발제 내용과 같이 이루다는 개인정보
보호법적 측면과 AI 윤리적 측면에서 우리에게 많은 고민을 안겨 주었습니
다.
먼저 개인정보보호법적 측면과 관련하여 개인정보의 활용과 보호의 조화 문
제는 여전히 진행형인 어려운 과제입니다. 원론적으로는 양자의 조화를 추구
해야 한다고 단순하게 얘기할 수 있을지 모르지만 지금의 시대상황은 그 조
화를 이루는 것이 얼마나 어려운 일인지를 심심치 않게 보여 주고 있습니다.
이루다가 그 대표적인 예가 되고 있는데 AI 발전을 위해 어느 정도까지 개
인정보보호법의 적용에 있어 유연성이 발휘되어야 하는지는 쉽게 판단할 수
가 없습니다. 주지하다시피 데이터는 4차 산업혁명을 견인하는 핵심 동력입
니다. 데이터 기반의 혁신기업들은 많은 고객으로부터 데이터를 수집·축적하
고, 이를 활용하여 시장 혁신을 주도하고 있습니다. 새로운 경쟁원천인 데이
터를 바탕으로 시장을 독과점하는 승자독식의 경쟁 환경에서 후발 주자의
시장 진입은 갈수록 어려워지는 구조가 되어 가고 있기도 합니다. 그러므로
데이터 패권 경쟁 본격화 시대에서의 전략적 대응의 필요성은 시급할 뿐만
아니라 이에 대해 다언을 요하지 않습니다. 이미 주요국은 미래 경쟁력을 좌
우하는 데이터의 중요성을 인식하고 데이터 경제 전략수립과 투자확대 등을

- 10 -
도모하고 있는바 바야흐로 전 세계는 이미 데이터 패권 경쟁에 본격적으로
돌입하였기 때문입니다. 그래서인지 데이터 활용에 있어 자유로운 이용을 강
조하는 목소리가 매우 크기만 합니다. 그렇다면 개인정보보호법은 과연 이러
한 시대흐름에 역행하고 기업의 창의성을 말살하는 규제인 것일까요. 저는
아니라고 생각합니다. 최근 우리나라는 EU로부터 적정성 초기결정을 받았습
니다. 이는 우리나라의 개인정보보호의 수준의 EU GDPR과 실질적으로 동
등한 수준이라는 평가이며 그 결과 우리나라 기업들은 EU 시민의 데이터를
자유롭게 EU 외로 이전할 수 있게 되었습니다. 이처럼 개인정보보호법제는
이미 한 나라에 특별하게 존재하는 local regulation이 아니라 전 세계적으로
보편적으로 적용되는 global regulation이 되어 가고 있습니다. 비슷한 수준
의 규제가 존재하는데 유독 한국에서만 시대흐름에 역행하고 기업의 창의성
을 말살하는 규제로 평가되는 것은 적절하지 않습니다. 오히려 반대로 우리
나라 개인정보보호법제에 충실한 기업이 national champion을 벗어나 global
champion이 될 수 있는 상황인 것입니다. 이루다의 경우에도 마찬가지입니
다. 만약 이루다가 EU에서 또는 미국에서 비슷한 서비스를 개시했고 이런
비슷한 문제가 발생했다면 과연 어떻게 되었을까요? EU에서는 엄청난 과징
금을 부과받거나 미국에서는 집단소송에 직면했을지도 모릅니다. 그런 측면
에서 본다면 이루다 서비스를 개인정보보호법적인 측면에서 살펴보는 것은
어쩌면 global champion이 되기를 꿈꾸는 우리나라의 기업들에게 백신과 같
은 역할을 하는 것이라 생각됩니다. 세계적 기업이 되기를 꿈꾸는 기업들에
게는 말입니다.
다음으로 AI 윤리적 측면에서 이루다가 쏟아낸 사회적 소수자에 대한 혐오
와 차별적인 발언은 가볍게 간과될 수 있는 내용이 아닙니다. 인공지능인 AI
가 미칠 영향은 개인의 관점에서 뿐만 아니라 사회 전체적인 관점에서 고려
되어야 하는데 인공지능의 사용은 민주적인 프로세스와 사회적인 권리를 지
원하는데 중요한 역할을 수행할 수 있기 때문입니다. 가령 최근에 유행하고
있는 AI 면접과 관련하여 해당 AI가 혐오와 차별적 마인드로 훈련된 상황이
라고 한다면 해당 면접의 결과가 어떠할지는 불을 보듯 뻔할 것입니다. 그래
서 AI의 윤리성은 앞으로 다가올 미래 세상에서 그 어떤 가치보다 중요한

- 11 -
덕목이 될 수밖에 없습니다. 온라인으로 진행된 CES 2021에서 “기술에는 양
심이 없다”라며 “기술이 세상에 봉사하게끔 만들어가는 일이 앞으로 우리 모
두에게 주어지는 책임이 될 것”이라고 언급한 MicroSoft의 브래드 스미스
(Brad Smith)의 말처럼, AI의 사용 결과가 어떤 결과를 초래하는지 불확실
한 만큼 기술의 윤리성도 반드시 함께 고려되어야 합니다. 그런 이유로 챗봇
이루다 사태에서 보듯 데이터 수집 단계의 개인정보 침해 우려 뿐만 아니라
인간에 대한 혐오, 편견을 조장하는 발언들 역시 초창기 기술이라는 이유로
대책 없이 받아들여야만 하는 것인지에 대해 근본적인 질문이 필요한 시점
입니다. 인공지능의 지속가능한 발전을 위해서는 윤리성과 책임성의 관점에
무게중심이 실려야 하며 그러한 전제가 담보되어야만 AI의 지속가능한 발전
도 수반될 수 있을 것입니다.
이루다 사건은 AI와 같은 신기술 분야에 국가인권위원회나 개인정보보호위
원회가 매우 중요한 역할을 할 수 있다는 점을 보여주고 있습니다. 국가인권
위원회는 신기술로 인해 발생할 수 있는 인권침해 상황을 예방하고 점검하
여 권고를 내리는 등 국가인권기구로서의 중추적 역할을 수행해야 하며, 차
별, 편견, 혐오를 조장하는 AI에 대한 관리 감독 기능을 수행해야 합니다.
AI 기술의 개발과정에서 개인정보의 수집과 이용 제공 등이 차지하는 역할
이 큰 만큼 개인정보보호위원회 또한 AI 개발 및 이용 과정에서 개인정보보
호법에 위반되는 부분은 없는지를 관리 감독하는 역할을 수행해야 합니다.
한편 민간차원의 강력한 자율규제 시스템으로의 전환도 필요합니다. 정부 주
도의 규제 뿐만 아니라 민간 주도의 규제가 무엇보다 중요한 이유는 정부가
어떤 법과 제도를 만든다고 하더라고 규제의 사각지대는 반드시 존재하기
마련이며 이런 이유로 정부 부처가 이용자들의 권익을 완벽하게 지켜줄 수
는 결코 없기 때문입니다. 그러므로 사고 발생 가능성을 최소화하고 사고가
발생했을 때 신속하고도 적절한 구제가 이루어질 수 있는 가장 실효적인 개
선방안으로 정부 차원의 규제 강화 뿐만 아니라 민간 차원의 규제 강화를
심각하게 고민해 볼 필요가 있습니다6). 이런 측면에서 볼 때 민간 부문의 규
6) 민간 차원의 규제 강화에서의 규제는 정확히 말하면 규제가 아닙니다. 규제는 정부가 기업의 활동
에 개입하는 행정규제를 전제로 하는 것이므로 이러한 행정규제를 축소하고 민간 분야의 자율적

- 12 -
제 강화를 위해 필요한 3가지 제도의 도입에 대해 적극적인 고려가 필요한
때입니다. 그것은 바로 (i) 기업의 자율규제를 강화하기 위해 사업자와 이용
자가 자발적으로 조직하여 운영하는 실질적인 자율규제기구, (ii) 민간 부
문의 자율규제가 활성화 될 수 있도록 하기 위한 정부의 행정적·재정적 지
원, (iii) 사업자의 고의 또는 부주의한 소비자피해 발생시 신속하고도 적절한
피해구제가 이루어질 수 있도록 하는 실질적인 소비자피해 구제제도(집단
소송과 징벌적 손해배상제도)입니다. 정부 주도, 관 주도의 규제를 최소화
하는 대신 민간 주도의 규제가 효과적으로 작동할 수 있도록 이러한 패러다
임의 전환에 대해서도 전향적으로 고려해 볼 필요가 있어 보입니다.<끝>
인 감시와 민사소송분야에서의 소비자의 권리를 강화시키는 방안(집단소송제도와 징벌적 손해배상
제도)은 큰 틀에서 보면 (행정)규제개혁과 일맥상통한다고 볼 수 있습니다.

- 13 -
언어모델의 발전 동향과 법적 과제
김병필 교수 (KAIST 기술경영학부)
발표자님들의 깊이 있는 고민이 담긴 좋은 발표와 훌륭한 의견에 감사드립
니다. 저는 이루다 사건에 초점을 맞추기보다 최근의 언어모델 발전이 제기
하는 법적 과제를 전반적으로 조망해 보고자 합니다.
1. 언어 모델의 개념과 응용 분야
언어모델(statistical language model)이란 주어진 텍스트의 확률{P(text)}을
계산해 내는 통계적 모형을 의미합니다.7) 예컨대 언어모델은 “Jane went to
the store.”라는 문장이 존재할 확률은 계산해 냅니다. 비교컨대 “Jane goed
to the store.”나 “Jane went store.”는 문법에 어긋나므로 확률이 매우 낮아
야 할 것입니다. 언어모델은 문법뿐만 아니라 단어의 의미도 고려해야 합니
다. “The store went to Jane.”은 의미가 어색하므로 확률이 낮겠지만, “The
food truck went to Jane.”은 의미가 어색하지 않으므로 확률이 그보다 더
높아야 합니다. 이처럼 성능이 우수한 언어모델을 만들기 위해서는 인간이
사용하는 언어 전반에 대한 이해가 필요합니다.
언어모델은 흔히 주어진 문장 다음에 등장할 다음 단어의 확률을 계산하는
방식으로 구현됩니다. 즉, “I love you”라는 문장의 확률은 (첫 단어가 “I”일
확률) × (주어진 단어가 “I”일 때 다음 단어가 “love”일 확률) × (주어진 단
어가 “I love”일 때 다음 단어가 “you”일 확률)과 같은 방식으로 계산됩니다.
이러한 점에 착안하면 언어모델을 이용하여 작문 기능을 수행하는 인공지능
을 개발할 수 있습니다. 예컨대 “Thank you.”라는 문장 다음에는 우선
“You”가 올 확률이, 그 다음에는 “are”가 올 확률이, 다시 그 다음에는
“welcome”이 올 확률이 각기 높을 것입니다. 이러한 방식으로 인공지능은
“Thank you.” 라는 문장에 대한 답으로 “You are welcome”을 생성할 수 있
7) https://en.wikipedia.org/wiki/Language_model

- 14 -
습니다. 매우 정교한 언어모델을 구현하면 인공지능이 자연스럽게 대화를 이
어나가거나, 마치 인간이 작성한 것 같은 글을 생성해 낼 수 있게 됩니다.
언어모델은 챗봇이나 작문, 번역에만 사용되는 것이 아니라, 현재 대부분의
자연어 이해 작업에 사용될 수 있습니다. 예컨대 언어모델을 응용하면 어떤
문장에 포함된 감성이 긍정적인지 부정적인지 판단할 수 있습니다. 자사 제
품에 대한 소비자 반응을 조사하는 직원이라면 이러한 인공지능을 유용하게
활용하여 손쉽게 제품 평가가 얼마나 긍정적인지 산정할 수 있습니다. 어떤
회사에 대한 뉴스 평판을 자동적으로 조사하여 주식 투자에 활용할 수도 있
습니다. 그 외에도 스팸 메일을 걸러내거나, 검색 엔진의 성능을 높이거나,
이용자 질의에 대한 답을 찾거나, 고유명사를 식별하여 비식별처리를 하는
등 다양한 작업에 활용될 수 있습니다. 요컨대 언어모델은 현재 언어를 이
해하는 인공지능을 구현하는 데 있어 핵심적 지위를 차지하고 있습니다.
2. 언어모델의 비약적 발전과 공개 데이터의 활용
최근 자연어 처리 분야에 딥러닝이 적용되면서 언어모델의 성능이 놀랍게
발전하고 있습니다. 2020년 미국 비영리 인공지능 연구기관인 “Open AI”가
발표한 GPT-3는 매우 정교한 언어모델입니다. 이제 GPT-3가 생성한 글은
인간이 작성한 글과 구별될 수 없는 수준에 이르렀습니다.
이러한 기술적 진보는 주로 언어모델의 ‘대용량화’에 기인하고 있습니다.
언어모델은 무수히 많은 인공 뉴런이 연결된 인공신경망으로 구성되어 있고,
인간의 언어 데이터(말뭉치)를 이용하여 인공 뉴런 간의 연결 강도를 학습하
게 됩니다. 이처럼 언어모델이 데이터로부터 학습하는 변수를 파라미터
(parameter)라고 부릅니다. 언어모델의 크기는 학습해야 할 파라미터의 수가
몇 개인지에 따라 평가합니다. 나아가 학습할 파라미터의 수가 많아질수록
학습에 사용해야 할 데이터도 늘어나야 합니다.
최근의 기술 추세는 학습 파라미터의 수가 기하급수적으로 증가하고 있는
것입니다. 2018년 발표된 구글의 BERT 언어모델(large)은 총 16GB의 학
습 데이터를 사용해 총 3.4억 개의 파라미터를 학습시켰던 것에 비해,
2020년에 발표된 GPT-3 언어모델은 570GB의 학습 데이터를 사용해

- 15 -
1,750억 개의 파라미터를 학습시켰습니다. 흔히 인간 뇌에는 총 100조 개
의 파라미터(시냅스 연결)이 존재한다고 추산되니, 인공지능 연구자들은
최소한 비슷한 개수의 파라미터를 갖춘 언어모델을 만드는 것을 목표로
삼고 있습니다. 지금 당장은 어렵더라도 머지않은 미래에 구현될 수 있을
법한 수준입니다.
이처럼 방대한 언어모델을 학습시키기 위한 데이터의 상당 부분은 인터넷에
공개된 텍스트를 크롤링(crawling)한 것들입니다. 2018년의 구글 BERT 모델
은 위키피디아와 구글 북 말뭉치를 사용한 것에 비해, 2020년의 GPT-3는
그 뿐만 아니라, 인터넷의 데이터 수십 TB 분량을 크롤링한 다음 이를 정제
하여 학습에 사용하였습니다.
이처럼 언어모델 학습을 위한 대규모 말뭉치의 필요성이 커지면서 공개된
데이터를 수집·정리하여 공개하는 작업도 이루어지고 있습니다. 대표적인
예가 Pile 데이터셋입니다.8) Pile 데이터셋에는 총 800GB에 달하는 다양
한 공개된 텍스트 데이터가 포함되어 있습니다. 이는 위키피디아, 뉴스 기
타 웹 크롤링 자료뿐만 아니라, 각종 논문, 서적, 프로그램 소스 코드, 판결
문, 특허출원, 유럽의회 의사록, 유튜브 자막, 공개된 대화, 공개된 이메일 등
여러 출처 데이터를 종합하여, 복합적 과제를 수행할 수 있는 언어모델을 학
습시킬 수 있도록 선별해 놓은 것입니다.
<그림 1> PILE 데이터셋에 포함된 말뭉치
8) Leo Gao et al. (2020) “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”
https://arxiv.org/abs/2101.00027

- 16 -
한편, 언어모델이 대용량화되는 경향에 대한 비판의 목소리도 존재합니
다.9) 대용량 언어모델 학습이 환경에 끼치는 영향, 다양성의 결여, 고정된 데
이터를 활용함으로써 다양한 사회적 견해가 반영되지 못할 위험성, 편견의
고착화, 책임성의 결여 등 문제가 지적되기도 합니다. 이러한 비판이 진지하
게 고려될 필요가 있으나, 현재 시점에서 상당 기간 동안은 언어모델의 용량
을 증대시키는 방향의 연구가 이어질 것으로 보입니다.
3. 대용량 언어모델 학습 데이터에 관한 국내법상 쟁점
국내 언어모델 연구자들은 대체로 한국어로 된 Pile과 같은 언어학습용 대용
량 데이터셋을 구축하여 공개해야 할 필요성에 공감하고 있습니다. 하지만
이러한 한국어 데이터셋을 구축·공개하는 것에 따른 법적 불확실성으로 인해
이러한 시도가 심각하게 위축되고 있고, 그 결과 현재 국내에서는 소규모로
큐레이션된 학습 데이터가 주류를 이루고 있을 뿐, Pile에 포함된 것과
같은 방대한 용량의 데이터셋은 찾기 어렵습니다. 대표적인 법적 불확실
성은 언어모델 학습을 위한 공개된 텍스트를 활용하는 것이 (1) 저작물의
공정이용에 해당하는지 여부가 명확하지 않다는 점, (2) 개인정보 보호법
위반 가능성이 있다는 점입니다.
이와 관련하여 최근의 구글 팀의 한 연구는 대용량의 언어모델은 학습된 데
이터를 그대로 기억하고 있다가 이를 그대로 재현해 낼 수 있다는 점을 밝
혀낸 바 있습니다.10) 위 연구는 언어모델이 저작물의 일부 문장이나 인터넷
에 공개된 개인식별정보(이름, 전화번호, 이메일 주소 등)를 그대로 재현해
낼 수 있다는 점을 보여주었습니다. 이러한 기술적 가능성까지 고려하면, 언
어모델 학습 목적으로 공개된 저작물/개인정보를 이용하는 것이 그저 저작권
법/개인정보 보호법 위반이 아니라고 그저 단정하기 어렵습니다.
우선, 저작권(복제권) 침해 여부에 관해서는 현행 공정이용 조항으로도 위와
같은 활용을 허용할 수 있다는 견해가 있으나, 법적 안정성을 위해 저작권법
전부개정안 제35조의5에서 ‘정보분석을 위한 복제·전송’ 조항을 신설하고자
9) Emily M. Bender et al. (2021) “On the Dangers of Stochastic Parrots: Can Language Models Be
Too Big?” https://faculty.washington.edu/ebender/papers/Stochastic_Parrots.pdf
10) Nicholas Carlini et al. (2020) “Extracting Training Data from Large Language Models”
https://arxiv.org/abs/2012.07805

- 17 -
하고 있습니다. 이를 통해 법적 불확실성이 제한적으로나마 해소될 것으로
기대됩니다.
한편, 개인정보 보호의 측면에서는 공개된 개인정보의 영업상 이용 가능성에
관한 로앤비 사건 판결이 중요한 준거가 될 것으로 생각합니다.11) 하지만 공
개된 개인정보의 이용에 관한 국내 개인정보 보호법의 규율은 명확하지 않
습니다.12)
또한 국내 연구자들은 개인정보 침해 위험성을 낮추기 위하여 언어모델 학
습에 있어 개인식별정보를 가명화하여 학습에 사용하고 있다는 점도 고려할
필요가 있습니다. 하지만 연구자들이 사용하는 개인식별정보 삭제 도구가 완
벽할 수 없으므로 언어모델이 개인정보를 기억하였다가 이를 생성해 낼 위
험성은 0이 될 수 없습니다.
그 확률을 매우 거칠게 추산해 보겠습니다. 2015년 국내 한 연구에 따르면
진료기록 텍스트에서 규칙 기반 비식별조치를 수행할 경우 개인식별정보가
삭제되지 못할 확률이 3.75% 수준이었습니다.13) 한편 앞서 인용한 Carlini et
al (2020) 연구에서는 언어모델에서 총 60만 건의 문장을 생성해 냈을 경우
개인정보가 추출될 확률이 0.013% (=78 건 / 60만 건)이었습니다. 즉, 학습
데이터 비식별조치 단계에서 개인식별정보가 삭제되지 않고 남아 있다가
언어모델에 의해 재생성될 확률은 대략 0.0005% (= 3.75% × 0.013%) 정
도 됩니다. 물론 이는 매우 대략적인 계산이고, 기술 발전에 따라 크게 달라
질 수 있다는 점에 유의할 필요는 있을 것입니다.
만약 개인정보 보호법이 zero-risk를 요구한다면 개인식별정보가 일부라도
포함된 공개된 데이터를 언어모델 학습에 사용하는 것까지도 제한되어야 한
다고 해석해야 할 가능성도 없지 않습니다. 하지만 일응 언어모델의 학습은
마치 어린아이가 인터넷에 공개된 글을 보고 글을 배우는 목적으로 사용하
는 것과 유사하므로 저작권자나 정보주체에 불이익이 발생할 가능성은 크지
않습니다. 이에 비해 대용량 언어모델이 갖는 상당한 큰 잠재적 유용성을 고
려할 때 zero-risk를 요구하는 해석은 적절하다고 보기 어렵습니다.
11) 대법원 2016. 8. 17. 선고 2014다235080 판결
12) 이동진 (2020) “일반적으로 접근 가능한 개인정보의 처리와 이익형량”, 정보법학 제24권 제2호
13) Soo-Yong Shin et al (2015) “A de-identification method for bilingual clinical texts of various
note types”, Journal of Korean Medical Science, Vol 30, Issue 1

- 18 -
4. 이루다 사건에 부쳐
이상에서 언어모델 학습을 위해 공개된 데이터를 활용하는 경우에 관한 의
견을 제시하였습니다. 이는 현재 세계적으로 대용량 언어모델 학습 데이터로
주로 공개 데이터가 고려되고 있는 추세를 고려한 것입니다. 한편 이루다 사
건은 정보주체의 (적어도 명목상의) 동의가 존재한다는 점에서 앞선 논의와
는 차이가 있습니다. 따라서 이루다 사건과 같이 정보주체의 동의를 얻은 학
습 데이터의 활용에 관해서는 별개의 법적 고려가 필요하고, 이에 관하여는
발표자 및 여러 토론자께서 충분히 논의하여 주실 것으로 믿습니다.
다만, 저는 마지막으로 이루다 사건에 관한 개인정보보호위원회의 결정이 국
내 인공지능 대화형 시스템 개발에 있어 중요한 역할을 하게 될 것이라는
점을 지적하고자 합니다. 현재 국내 많은 기업들이 콜센터 대화 녹취, 채팅
응답, 이메일 질의 응답 등의 다양한 데이터를 축적해 놓고 있습니다. 비대
면 고객 응대의 중요성이 증가하면서 챗봇 기술의 활용 가능성이 커지고 있
고, 위와 같은 축적된 데이터를 이용할 필요성도 높아지고 있습니다.
이러한 상황에서 기업이 고객과의 기존 대화 정보(녹음/녹취)를 챗봇 서비
스 개발을 위해 사용할 수 있을까요? 고객과의 대화를 수집하면서 ‘신규
서비스 개발’ 목적임을 명시한 경우도 있고 그렇지 않은 경우도 있을 것입니
다. 어떠한 경우이든 이루다 사건에 관한 개인정보보호위원회의 결정은 위
대화 정보의 활용 여부 판단에 큰 영향을 끼칠 것입니다.
그 판단에 있어 개정 개인정보 보호법 제15조 제3항 “당초 수집 목적과 합
리적으로 관련된 범위”인지 여부도 고려되어야 할 것입니다. 고객 대화를 챗
봇 서비스 개발에 사용함으로써 정보주체에게 불이익이 발생하는지, (개인식
별정보의 삭제 등) 안전성 확보에 필요한 조치를 하였는지 등을 고려해야 할
것입니다. 특정 목적을 수행하기 위한 업무용 대화에 대한 고객의 프라이버
시 보호 기대 수준에 대한 고려도 이루어져야 할 것입니다. 이러한 프라이버
시 보호 기대 수준을 판단함에 있어서는 일반적 사적 대화와 업무용 공적
대화를 구분하여 판단되어야 필요가 있을 것입니다.

- 19 -
5. 결론
언어모델의 잠재적 효용성이 크다고 하더라도 언어모델 학습을 위해서는 모
든 경우에 있어 모든 공개된 저작물이나 개인정보 또는 합법적으로 수집된
모든 개인정보를 사용할 수 있어야 한다고 결론을 내릴 수는 없을 것입니다.
하지만 국내 언어모델 연구자들은 현재 심각한 법적 불확실성에 직면하고
있고, 이는 한국어 언어모델 발전에 중대한 장애가 되고 있습니다. 이루
다 사건을 계기로 이러한 법적 불확실성이 일부라도 해소될 수 있기를
바랍니다.

- 20 -
이루다가 쏘아 올린 데이터법과 AI윤리 이슈와 과제 토론문
최성진 대표 (코리아스타트업포럼)
[데이터(개인정보) 이슈]
- 개인정보와 관련하여 제기되는 이슈들(활용 동의, 비식별화, 활용 범위 등)
은 대부분 기준 데이터 관련 법제도의 적용이 가능하며, 새로운 규제가 필
요한 영역이 아님
- 정보주체의 권리 보호 및 데이터 활용을 통한 편익 증대라는 두 가지 대
원칙 하에, 새로운 기술과 서비스를 촉진하고 포용하는 세심한 접근 필요
- 이와 별도로 AI경쟁력 강화를 위해 대량의 활용가능한 데이터를 확보하는
과제에 대해 공공데이터를 포함하여 국가전략이 필요함
[AI 편향성 이슈]
- 기계학습을 통한 AI알고리즘은 그 발전과정에서 다양한 편향성이 확인되
고 있으며, 극복해야할 주요 기술적 과제 중 하나임. 또한 대화형 AI 등
휴먼인터페이스에 가까울수록 문제를 심각하게 인식하는 경향이 있음
- AI에 대한 연구와 기술적 발전이 지속되어야 하는 현재 상황에서, 알고리
즘 편향성에 대한 섣부른 규제보다는 기술과 서비스의 발전을 촉진하는
정책이 필요
- 알고리즘의 편향성 자체보다는 이로 인해 문제가 나타나는 것을 최소화하
고, 합리적인 설명과 오류에 대해 수정할 수 있는 권리와 절차를 확대해나
가는 것이 바람직함

- 21 -
[AI 윤리 이슈]
- AI윤리는 국내외에서 활발히 논의되고 있으며, 이미 주요 기업들과 정부들
의 윤리 기준이 뚜렷한 공통분모를 형성하고 있음(인간 존중, 공공성, 합목
적성, 안정성, 프라이버시보호등)
- 우리 정부의 ‘사람이 중심이 되는 인공지능 윤리기준’(2020)과 카카오 알고
리즘 윤리 헌장(2018), 네이버AI윤리준칙(2021) 등 기업과 공공에서 지켜야
할 AI윤리에 대한 원칙의 마련과 적용이 확대되고 있는 것은 긍정적
- 다만, AI윤리는 AI를 연구하고 서비스를 개발하는 당사자들이 지켜야 할
자율규범(Code of Conduct)으로서 그 의미가 있는 것이지, 이를 기반으로
규제(법규범)이 논의되거나 마련되어서는 안됨
- 자율규범의 활성화를 바탕으로 사회적 책임과 사회 전체의 이익에 AI가
기여할 수 있도록 노력해야 함

- 22 -
구태언 변호사 (법무법인 린)
1. 개인정보는 그 주체에게 절대적 권리가 보장되는가?
사람은 사회적 존재입니다. 태어나면서 부모는 자녀에게 이름을 붙여 줍니
다. 이름은 남이 부르라고 붙이는 것이며, 이름에 의해 개인은 다른 사람과
구별되는 사회적 존재를 갖게 됩니다. 사회적 존재이므로 한 사람이 다른 사
람과 맺는 사회생활관계는 그 혼자의 것이 아닙니다.
민법의 공유물의 사용관계를 보면, 이루다 건에서 문제된 ‘대화기록’의 개
인정보보호법상 지위에 참고할 수 있습니다.

제3절 공동소유
제262조(물건의 공유)
①물건이 지분에 의하여 수인의 소유로 된 때에는 공유로 한다.
②공유자의 지분은 균등한 것으로 추정한다.
제263조(공유지분의 처분과 공유물의 사용, 수익)
공유자는 그 지분을 처분할 수 있고 공유물 전부를 지분의 비율로 사용, 수익할 수
있다.
특정인 혼자만의 기록(그런 기록을 찾기란 의외로 어려울 수 있습니다)이
아닌 사회적 관계 속에서 형성된 개인정보는 공유물입니다. 공유자의 공유물
에 대한 지분은 균등하며, 공유자는 공유물 전부를 지분의 비율로 사용, 수
익할 수 있습니다. 이 법리를 대화기록에 준용하면 대화자 1인은 대화기록의
공유자이며, 지분은 균등하고, 공유자는 대화기록의 전부를 지분의 비율로
사용, 수익할 수 있다고 합니다. 대화기록을 지분의 비율로 사용하는 것의
현실적 문제에 대해서는 깊게 따져봐야 하지만, 현실에서 대화기록의 일종인
이메일이나 음성녹음을 사용해 온 관행을 살펴보면 이미 해답을 갖고 있는
것으로 보입니다.

- 23 -
우리나라 법원은 대화자 일방이 녹음한 녹음기록이나 녹취록의 증거능력
을 인정합니다. 모든 사람은 수신한 이메일을 상대방(발신자 또는 참조자)의
동의 없이 처리(저장, 출력, 전달)하고 있습니다. 음성녹음이나 이메일에 비
교해 카카오톡 대화기록의 차이점은 무엇입니까?
비슷한 사례는 수도 없이 많습니다. 여러명이 함께 찍은 사진, 토론회 등
다수인이 참여하는 회의나 행사의 영상/음성/회의록, 방송에 출연한 사람들,
결혼식장의 기념영상에 등장하는 하객들. 이런 공동생성기록에 개인이 등장
한다고 하여 그 개인들에게 모두 절대적 자기결정권을 부여할 수 있겠습니
까? 이는 모든 인간사는 역사이며, 인간사의 기록은 역사기록물이라는 점을
도외시한 극도의 이기주의적 사고의 산물이며, 기록을 통한 인류문화발전이
우리가 현재 누리는 인권신장과 기술발전의 인프라였음에 대한 몰이해라 아
니할 수 없습니다.
2. 이루다 사건은 개인정보의 절대적 보호라는 오해를 시정할 수 있는 좋은
기회
대화기록은 일방이 공유자로서 사용할 권리가 있습니다. 공유자이므로 이
를 제3자에게 제공할 때 상대방의 동의를 얻지 않아도 되며, 이를 수집하는
정보통신서비스제공자는 대화자의 일방의 동의를 얻어도 충분합니다. 법원이
녹취서를 증거로서 판단할 때 녹취서에 등장하는 모두의 동의를 얻어 녹음
한 것인지 따지지 않고 증거능력을 인정하는 것과 마찬가지입니다.
개인정보는 절대적 권리가 아니며, 공동생활하는 타인과 사이에서 만들어
낸 공유물입니다. 사적인 대화라 할지라도 상대방에게는 그 대화를 사용할
권리가 있습니다.
이루다 사건은 우리가 믿는 개인정보의 절대적 보호라는 신화가 미신임을
깨우쳐 주는 좋은 사건입니다. 디지털 시대라고 하여 인류의 공동생활관계의
본질이 달라지는 것은 아닙니다.

- 24 -
3. 윤리 문제 – 아직 미숙한 인공지능에게 윤리를 가르쳐주는 어뷰저
(abuser)
인공지능은 컴퓨터의 딥러닝의 산물이며, 수식계산과 같은 수학공식으로
처리하는 업무는 인간보다 뛰어나지만, 사회적 맥락이나 정서적 이해 같은
인간활동에는 아직 못미치고 있습니다. 이는 학습데이터의 부족으로 인한 현
상이며, 한국은 개인정보보호법의 맹목적 오해 등으로 인해 더욱 공유되지
못하고 있어 더욱 그러합니다.
인공지능은 특정한 사안에 대한 입장을 미리 정리해 놓은 것이 아니므로
인공지능의 응답이 그 개발기업의 공식적 입장도 아닙니다. 이용자들은 이러
한 인공지능을 당연히 갖고 놉니다. 이런 놀이 과정에서 인공지능이 아직 준
비되지 못한, 또는 학습데이터의 오염으로 인한 결과로 바람직하지 못한 응
답을 내 놓는 일은 당연합니다.
인공지능의 ‘오답’은 개선해 나갈 문제입니다. 이를 인공지능의 ‘발언
(Speech)’로 보는 것은 인공지능에 대한 과대평가입니다. 인공지능은 고도로
자동화된 컴퓨터활동에 불과합니다. 어뷰저들의 가혹행위(?)는 성장 과정에
있는 인공지능 개발기업들에게 큰 반면교사가 될 것입니다. 공격은 방어능력
을 함양시킵니다. 설사 대기업이 미리 실험한다고 해도, 수천만명의 시험자
(Tester)들의 협공을 미리 경험하기 어렵습니다.
우리 사회가 뛰어난 인공지능을 보유할 때까지 이루다와 같은 인공지능이
많이 출현하고 그의 사회적 훈련을 우리가 도와주어야 합니다. 해외 빅테크
들이 대자본과 탈규제 속에서 성장시키고 있는 인공지능의 공습이 머지 않
았습니다.

법무법인 린 - 이루다가 쏘아올린 데이터법과 인공지능 윤리 이슈와 과제

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 법무법인 린 - 이루다가 쏘아올린 데이터법과 인공지능 윤리 이슈와 과제

Similaire à 법무법인 린 - 이루다가 쏘아올린 데이터법과 인공지능 윤리 이슈와 과제 (20)

Plus de TEK & LAW, LLP

Plus de TEK & LAW, LLP (20)

법무법인 린 - 이루다가 쏘아올린 데이터법과 인공지능 윤리 이슈와 과제