SlideShare une entreprise Scribd logo
1  sur  9
Télécharger pour lire hors ligne
홈IoT 산업 이슈분석 (2016. 10)
음성인식 기반 홈IoT 제품/서비스
동향 및 시사점
『음성인식 기반 홈IoT 제품/서비스 동향 및 시사점』
순천향대학교 IoT보안연구센터 김학용 교수
iotstlabs@gmail.com, 010-4711-1434
1. 개요
구글은 지난 5월 18일에 열린 ‘Google I/O 2016’에서 ‘구글 홈(Google Home)’
이라는 음성인식 기반의 인공지능 서비스 디바이스를 공개했다. 구글 홈은 구글의
음성인식 기반 인공지능 서비스인 ‘구글 어시스턴트(Google Assistant)’와 연결되어
사용되는 홈서비스 디바이스로, 사용자와의 자연스러운 대화를 통해 사용자의
의도나 명령을 인식하고 그에 맞는 서비스를 제공하는 일종의 가상 비서 역할을
하는 장치다.
사실, 구글홈과 같은 음성인식 기반의 인공지능 서비스 디바이스가 출시된 것은
이번이 처음이 아니다. 잘 알려진 것처럼 아마존(Amazon)은 이미 2014년 11월에
‘에코(Echo)’를 출시하여 현재까지 전세계적으로 400만대 이상을 판매하기도 했
으며, 아마존 외에도 다양한 기업들이 다양한 형태와 차별화된 기능을 제공하는
음성인식 기반의 서비스 디바이스들을 출시했거나 곧 출시할 예정이다.
음성인식 기반의 사용자 인터페이스 기술과 인공지능 기반의 서비스 제공 기술
들이 수십 년 전부터 연구되어 왔다는 것은 주지의 사실이다. 그럼에도 불구하고,
최근에 들어서야 이러한 기술과 장치들이 상용화되며 주목을 받기 시작하는
이유는 무엇일까? 본 고에서는 최근 들어 관심이 집중되고 있는 음성인식 기반
의 홈IoT제품/서비스와 관련된 시장 동향 및 기술에 대해 살펴보고 향후 발전
방향 및 비즈니스 관점에서의 시사점을 도출해 보고자 한다.
2. 음성인식 기반 서비스 디바이스의 역사
최초의 음성 인식에 대한 연구는 지금으로부터 80여 년 전인 1932년 벨랩(Bell
Labs)에서부터 시작되었으며, 인공지능에 대한 공식적인 연구는 1943년부터
본격적으로 시작된 것으로 알려지고 있다 [1][2]. 이 즈음의 연구는 그 동안
상상이나 소설 속에서 존재하던 생각들, 즉 컴퓨터가 사람의 말을 이해하고 그에
해당하는 기능이나 서비스를 제공하는 것을 이론적으로 연구하고 실제로 구현해
보는 수준에 불과했으며, 이후 컴퓨팅 기술과 유무선 통신기술의 고도화와 발맞
추어 현실적인 응용 관점에서의 연구가 진행되기 시작했다.
한편, 최근에 경쟁적으로 소개되고 있는 음성인식 기반의 인공지능 서비스의
역사는 약 10여 년 전으로 거슬러 올라간다. 그러나, 10여 년 전인 2000년대 초
반만 하더라도 음성인식 기술은 특정한 화자(話者)만을 대상으로 단어나 단문을
인식하는 수준이었다. 주로 핸드폰 제조사 주도로 관련 기술이 도입되기 시작했
으며, 음성으로 전화를 걸거나 특정한 기능을 실행시키는 등 서비스라기보다는
단말기 기능에 대한 새로운 형태의 인터페이스 성격이 강했다.
이후 모바일 프로세서의 성능이 고도화 되고 2000년대 후반에 WCDMA,
HSPA 등 고속 무선 통신기술이 도입됨에 따라 화자에 상관없이 음성을 인식하고
클라우드를 기반으로 하여 단어가 아닌 문장을 이해하거나 문장의 변형된 패턴을
인식하고 그에 상응하는 서비스를 제공하는 쪽으로 발전하기 시작했다. 대표적인
서비스로는 일본 NTT Docomo가 제공하던 샤베테컨쉐루(しゃべってコンシェル,
Shabete-Concier)가 있다 [3]. 샤베테컨쉐루는 2012년 안드로이드 기반의 어플로
도 출시되었으며, 당시 음성인식 정확도가 90% 이상으로 다른 음성인식 서비스
들에 비해 매우 정확했다 [4].
LTE 서비스가 시작된 2011년 7월 이후, 단말기 제조사들은 다시 한 번 음성인식
기술의 도입을 추진하게 되는데, 대표적인 것이 애플의 ‘시리(Siri)’와 구글의
‘구글 나우(Google Now)', 마이크로소프트의 ’코타나(Cortana)' 등이다. 2011년
10월에 출시된 아이폰 4S와 함께 공개된 시리는 본격적으로 음성인식 기술과 인
공지능 기술을 결합하기 시작했다. 기존의 음성인식 기술들이 인식된 단어와 관
련하여 사전에 지정된 기능을 실행했던 것과 달리, 시리는 사용자의 질문이나
명령을 해석한 후 그에 적절한 대답을 들려주거나 필요한 앱(App)을 동작시켜
주었다. 스마트폰용 OS를 제공하던 구글은 애플보다 1년 늦은 2012년 7월에 구
글 나우를 출시하였으며, 마이크로소프트는 2014년 4월에 코타나를 출시했다.
시리나 구글 나우, 코타나 등이 스마트폰 기반으로 하는 음성인식 서비스였다면,
2014년 11월에 출시된 아마존의 ‘알렉사(Alexa)’는 ‘에코(Echo)’라고 하는 홈서비스
디바이스를 기반으로 하는 음성인식 서비스라 할 수 있다. 그리고, 이러한 트렌드는
지난 5월에 발표한 구글의 구글홈과 6월에 발표한 에이서스(ASUS)의 ‘젠보
(Zenbo)’ 등으로 이어진다.
국내의 경우, 삼성전자는 2012년 5월에 음성인식 기반 개인비서 어플리케이션인
‘S보이스’를 갤럭시 S3와 함께 공개했다. 초기 S보이스는 전화를 걸거나 특정한
어플리케이션을 실행하는 등 스마트폰에 내장되어 있는 기능들을 실행하거나 포털
사이트의 검색 서비스에 연결하여 적합한 정보를 찾는 수준이었으나, 이후 클라우드
시스템을 이용하여 간단한 대화를 하는 수준으로까지 발전했다. LG전자 역시
2012년 7월 지능형 음성인식 솔루션인 ‘Q보이스’를 출시했다. Q보이스는 음성식
솔루션인 ‘퀵보이스’가 진화한 것으로 자연어 인식을 바탕으로 개인맞춤형 서비
스를 제공하는 것을 목표로 하고 있었으며, 스마트폰은 물론 스마트 TV 등과 같
은 다양한 스마트 가전에 활용되고 있다.
3. 대표적인 음성인식 기반 인공지능 서비스 및 서비스 디바이스
음성인식 기반 서비스는 크게 음성제어형과 개인비서형으로 나누어 생각할 수
있다. 음성제어형은 음성인식 결과를 바탕으로 관련된 디바이스를 제어하거나
특정한 기능 및 어플리케이션을 수행하는 것을 말한다. 따라서, 엄밀한 의미에서는
인공지능 서비스라 할 수 없으며, 주로 초기에 음성인식 기술을 수용한 디바이스
에서 발견된다. 반면, 개인비서형 서비스는 문장을 분석하여 사용자의 의도를
파악한 후 사용자에게 적합한 서비스를 추천하거나 관련된 외부 서비스를 중개
해 준다. 따라서, 개인비서형 서비스에서는 동일한 음성 명령이 주어질지라도 사
용자에 따라서 제공되는 서비스가 달라질 수 있다. 일반적으로, 개인비서형 서비스
에는 음성제어형 서비스가 기본적인 서비스로 포함된다.
이 절에서는 인공지능을 바탕으로 하는 음성인식 기반의 개인비서형 서비스
디바이스들에 대해 소개하고 주요 특징들을 비교하고자 한다. 대표적인 음성인식
기반 인공지능 서비스에는 앞에서 소개한 아마존의 알렉사, 구글의 구글 어시스
턴트, 애플의 시리 등이 있으며, 로봇 형태의 홈서비스 디바이스를 출시한 에이
서스(Asus)의 ‘젠보(Zenbo)’도 함께 소개하고자 한다.
1) Amazon의 에코와 알렉사
2014년 11월에 공개된 아마존 에코는 대표적인 음성인식 기반의 인공지능 서비스
디바이스로 현재까지 400만대 이상 판매된 것으로 알려지고 있다. 아마존 에코는
원통형의 무선 스피커로, 상단부에는 7개의 마이크를 탑재하고 있다. 여러 개의
마이크를 이용하여 소리가 들리는 방향과 거리를 계산하고, 이를 바탕으로
더욱 정확하게 음성을 인식하도록 하기 위함이다. 이러한 원거리 음성 인식
(far-field voice recognition) 기술 덕분에 주위에 소음이 있는 환경에서도 6~7미
터 떨어진 곳에서 음성으로 명령을 내리는 것이 가능하다.
사실, 아마존 에코는 음성과 바코드를 인식해서 식료품이나 생필품의 주문을
쉽게 해주는 ‘아마존 대시(Amazon Dash)'의 후속 디바이스 성격이 크다. 아마존
대시도 음성이나 바코드 인식을 통해 인터넷 쇼핑에 대한 UI/UX를 개선시켜주
기는 했지만, 이를 위해서는 사용자가 아마존 대시가 있는 곳으로 이동해야 했고
대시 디바이스를 손에 쥐고 마이크 버튼을 눌러야 하는 불편함이 존재했다.
또한, 주문이 제대로 되었는지 확인하기 위해서는 추후 아마존닷컴에 로그인을
해야만 했다. 아마존 에코는 이와 같은 아마존 대시의 모든 불편함을 개선한 제
품이다. 주방이나 거실의 어디서나 말만하면 되며(hands-free), 음성명령에 대한
피드백도 음성을 통해 알려준다.
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
2015년 3월 2015년 6월 2015년 9월 2015년 12월
그림 1. 아마존 에코에 대한 아마존 고객들의 인식도 조사 (출처: CIRP)
아마존 에코와 함께 이용되는 알렉사의 음성인식 정확도에 대해서는 아직 공개
된 것이 없으나 95% 내외인 것으로 추정되고 있으며, 지속적으로 사용자의 발
음을 학습함으로써 음성인식의 정확도를 높이고 있다. 아마존 에코는 사용자의
음성뿐만 아니라 서비스 이용 패턴까지도 함께 분석해 갈수록 똑똑해진다고 한
다. 이러한 이유 때문에 아마존 에코를 이용하는 사람들이 꾸준히 늘고 있다. 미
국 소비자행동조사 및 분석기관인 CIRP(Consumer Intelligence Research
Partners)에 따르면, 그림 1에 보이는 것처럼 아마존 에코에 대한 아마존 고객들
의 인식도는 1년 사이에 두 배 이상 증가한 것으로 나타나고 있다 [5].
아마존은 알렉사를 중심으로 하는 음성인식 기반의 인공지능 서비스 생태계를
확장하기 위해 빠르고 공격적인 움직임을 보이고 있다. 대표적인 것이 인터페이
스 장치의 라인업을 확대하는 것과 이런 장치를 통해 제공할 수 있는 서비스의
종류를 늘리기 위한 노력이다.
인터페이스 장치의 라인업을 확대하기 위해서 아마존은 기존에 판매하던 아마존
파이어 TV에서도 알렉사를 지원하기 시작했으며, 2016년 3월에는 ‘에코 탭(Echo
Tap)’과 '에코 닷(Echo Dot)'을 출시하기도 했다. 에코 탭은 아마존 에코의 휴대
용 버전으로, 배터리를 절약하기 위해 디바이스를 ‘탭(Tap)' 해야만 음성 명령에
반응하게 된다. 에코 닷은 가정이나 사무실 등에서 아마존 에코와 함께 사용함
으로써 공간적인 측면에서 아마존 에코의 서비스 영역을 넓혀주기 위한 것이다.
하키팩 형태의 아주 작은 크기의 제품으로 스피커 기능은 최소화 되었다.
그림 2. Alexa Voice Service (AVS) 개념도
아마존은 써드파티의 디바이스에서도 알렉사를 이용할 수 있도록 하기 위해
Amazon Voice Service (AVS)를 공개하기도 했다. AVS는 마이크와 스피커가 내
장되어 있는 써드파티의 디바이스에 알렉사의 기능을 이용할 수 있도록 하는
API에 해당하는 것으로, 대화 인식과 자연어 처리에 대한 아무런 배경 지식이
없을지라도 손쉽게 음성 기반의 인터페이스 환경을 구축할 수 있게 해 준다 [6].
인디고고(Indiegogo)를 통해 스마트워치의 크라우드 펀딩을 진행했던 코워치
(CoWatch)나 페블(Pebble)이 출시한 액티비티 트래커인 페블 코어(Pebble Core)
등이 이미 AVS를 이용하고 있으며, 아두이노나 라즈베리파이와 같은 개발보드
를 이용해서 알렉사를 지원하는 장치를 만드는 것도 가능하다.
AVS는 스마트홈이나 웨어러블 디바이스들뿐만 아니라 자동차 등 다양한 디바이스
에서도 이용될 것으로 전망된다. 일례로, 2016년에 미국에서 출시되는 제너시스
G80과 G90 및 포드(Ford)와 BMW 자동차의 일부 모델에서도 AVS가 탑재되어
이용될 예정이다. 이렇게 되면, 거실에서 아마존 에코를 이용해서 집밖에 있는
자동차의 시동을 거는 것이 가능하며, 반대로 자동차에서 집안의 가전제품을 제
어하는 것도 가능해진다. 이 외에도 미국에서 출시되는 LG전자의 가전제품들도
알렉사를 이용할 수 있을 것이라고 한다.
그림 3. 아마존의 음성인식 기반 인공지능 서비스 생태계
AVS와 별도로, 써드파티가 알렉사에게 새로운 기능을 추가할 수 있도록 하기
위해 아마존은 외부 개발자들에게 알렉사 스킬 키트(Alexa Skill Kit, ASK)를 공
개하고 있다 [7]. 써드파티의 개발자들은 몇 줄의 코드를 추가하는 것만으로 자
사 제품에서 음성 명령 기반의 기능들을 제공할 수 있게 된다. 아마존과 GE가
함께 개발한 제네바 스킬(Geneva Skill)을 예로 들면, 사용자들은 아마존 에코에
대고 “Alexa, tell Geneva to preheat the oven to 350 degrees! (알렉사, 오븐을
350도로 예열하라고 제네바에게 알려줘!)”와 같은 방식으로 명령함으로써 오븐
을 포함한 GE의 다양한 가전제품들을 제어하는 것이 가능해진다. 즉, 제네바는
GE의 가전제품들을 위한 알렉사에 해당한다고 생각하면 된다.
GE의 제네바처럼 별도의 스킬 키트를 이용하지 않는 경우는 스마트홈 스킬 키
트(Smart Home Skill Kit)처럼 이미 만들어진 스킬 키트를 이용할 수 있다. 커넥
티드 디바이스 제조사들은 스마트홈 스킬 API를 이용하여 알렉사에게 자사의
스마트홈 디바이스를 제어하는 방법을 알려줄 수 있다. 최근 테크크런치
(TechCrunch)의 보도에 따르면, 2016년 9월 중순 기준 알렉사 스킬의 개수는
3,000여 개로 6월말 1,000개의 3배에 달한다고 한다.
2) Google의 구글 홈과 구글 어시스턴트
구글은 지난 5월 18일 구글 개발자 회의인 Google I/O 2016에서 무선 스피커
형태의 홈서비스 디바이스인 구글 홈을 발표했다. 구글 홈은 아마존 에코와 비
슷하게 대화 방식을 통해 사용자의 음성 명령을 인식하고 그에 맞는 서비스를
제공하는 가상 비서 서비스 장치로, 스트리밍 방식으로 음악을 플레이하고 날씨,
뉴스, 주식 등의 생활 정보를 제공하며 가정용 스마트 기기를 제어하고 쇼핑을
하거나 식당을 예약하는 것이 가능하다.
그림 4. 출시 예정인 구글의 음성인식 기반 인공지능 서비스 디바이스, 구글 홈
구글 홈과 함께 사용되는 인공지능 서비스인 구글 어시스턴트는 머신러닝 기술
을 활용하여 기존보다 자연어 처리 능력이 훨씬 자연스러워지고 문맥까지 파악
할 수 있다는 것이 대표적인 특징이다. 예를 들어, “홍릉과학출판사에서 발행한
사물인터넷이라는 책의 저자가 누구지?”라고 질문한 후 “그의 주요 이력을 알려
줘!”라고 명령을 하게 되면 김학용에 대한 이력을 검색해서 알려주게 된다.
구글 홈과 구글 어시스턴트가 이처럼 다양한 서비스를 제공하기는 하지만, 구글
이 구글 홈을 출시한 근본적인 목적은 구글의 메인 비즈니스인 검색 및 광고 서
비스의 생태계를 강화하는 것이라 생각된다. 대화라는 자연스러운 방식을 이용
해서 스마트폰이나 PC가 없더라도 언제 어디서나 구글의 검색 서비스를 이용할
수 있도록 하려는 것이다. 이는 아마존의 에코와 알렉사가 근본적으로 아마존이
제공하는 이커머스나 컨텐츠 서비스의 활성화에 초점이 맞춰져 있는 것과 같은
맥락에서 이해할 수 있다. 단지 차이가 있다면, 아마존은 에코의 성공을 기반으
로 음성인식 기반의 생태계를 확장해 나가기 위한 노력을 하고 있는 반면에 구
글은 이미 구축된 생태계를 구글 어시스턴트와 통합하려 한다는 것이다.
그림 5. 구글의 클라우드 스피치 API의 활용 예시
이를 위한 사전 작업으로 지난 3월 23일 구글은 ‘클라우드 스피치(Cloud
Speech) API’를 공개했다 [8]. 클라우드 스피치 API는 오디오를 텍스트로 바꿔주
는 기술로 딥러닝 뉴럴 네트워크 알고리즘을 이용하고 있다. 한국어를 포함하여
전세계 80개 언어를 지원하며, 부적절한 콘텐츠를 따로 걸러내는 필터링 기능도
제공한다. 실시간으로 언어를 인식하고 해석할 수 있으며, 기존에 녹음된 파일을
읽을 수도 있다. 구글 음성 검색이나 음성으로 조작할 수 있는 앱 등에 활용되고
있으며, 소음에 크게 영향을 받지 않는 등 높은 음성인식 정확도를 제공한다. 7월
25일에 공개된 베타 버전에는 문맥에 알맞은 단어 및 어구를 추가해 주는 기술인
‘워드 힌트(Word Hint)’와 클라우드 스피치 API의 호출 속도를 개선하는 ‘비동
기식 호출’ 기능이 추가 됐다.
구글은 구글 홈 출시 이전에도 이미 네스트(Nest)라는 스마트홈 플랫폼이나 온
허브(OnHub)라는 게이트웨이 디바이스를 출시한 바 있다. 그럼에도 불구하고
새로이 구글 홈을 출시한 것은 스마트홈을 구성하는 디바이스들을 통합하고 원
격에서 모니터링하거나 제어하는 수준을 넘어서는 집과 관련된 생활 편의 서비스를
제공하겠다는 강력한 의지의 표현으로 이해할 수 있다. 네스트나 온허브를 통해
통합된 디바이스들을 통해 구글이 가지고 있는 서비스 및 다른 서비스 사업자들의
서비스를 중개해 줌으로써 직접적인 수익을 올리고자 하는 것이다.
3) Apple의 시리
애플은 스마트폰에 음성인식 기능을 가장 일찍 도입하긴 했지만, 음성인식 기
반의 인공지능 서비스 생태계를 확장하는 데에 있어서는 그다지 적극적이지 않
았다. 그러나, 아마존이나 구글같은 경쟁자들의 발빠른 횡보에 위기감을 느꼈는지,
최근에는 생태계 확장을 위한 다양한 노력을 진행하고 있다. 대표적인 것이 스
마트폰에서만 이용할 수 있던 시리를 최근에 출시된 애플워치2와 애플TV는 물론
PC나 노트북에서도 이용할 수 있도록 한 것이다. 특히, PC 및 노트북 운영체제인
‘맥OS 시에라 (macOS Sierra)’에도 탑재하여 맥 PC나 노트북 이용자가 궁금한
점을 음성으로 말하면 시리가 관련된 정보를 찾아주게 된다.
이 외에도 아마존의 에코와 같은 무선 스피커형 서비스 디바이스를 공개할 것이
라는 전망도 나오고 있다. 이와 관련해서는 아직까지는 공식적인 발표가 없지만,
스피커 전문기업인 Beats by Dr. Dre를 보유하고 있기에 머지않아 에코나 구글
홈과 같은 스피커 형태의 홈서비스 디바이스가 출시될 것으로 예상된다. 만약,
스피커형 디바이스가 출시된다면 애플의 스마트홈 서비스 플랫폼인 ‘홈(Home)’
과 결합하여 음성으로 가정용 장치들을 제어하고 다양한 생활 서비스를 중개할
것으로 기대된다.
그림 6. 시리를 이용해 위챗으로 메시지를 전송하는 장면
프라이버시 이슈로 그 동안 폐쇄적인 정책을 고수해 오던 애플은 6월 13일 개
최된 ‘세계개발자회의(WWDC) 2016’에서 시리의 소프트웨어개발키트(SDK)를 공
개하기도 했다. 이에 따라, 써트파티 개발자들도 시리를 이용한 어플리케이션을
개발할 수 있게 되었으며, 시리와 스마트폰용 어플리케이션을 연동하는 것도 가
능하게 되었다. 예를 들면, “시리야, 위챗으로 낸시에게 5분 늦을 것 같다고 전
해 줘”라고 말하면, 그림에 보이는 것처럼 위챗 어플을 통해 관련 메시지가 전
달되는 식이다. 이 외에도 우버 어플을 호출해서 우버 차량을 호출하거나 돈을
이체하고 피자를 주문하는 것이 가능하게 된 것이다. 아직까지는 음성/영상 전
화, 메시지, 송금 및 이체, 사진 검색, 운동, 차량 예약 등 6가지 유형의 서드파
티 앱만을 지원하지만, 시간이 지나면서 대상 서비스는 확대될 것으로 전망된다.
애플의 시리 SDK의 공개와 스마트홈 생태계 강화는 그동안 애플이 집중해 왔던
하드웨어 판매 중심의 수익 구조에서 탈피하기 위한 시작점이 될 수도 있으리라
생각된다.
4) ASUS의 ‘젠보(Zenbo)’
지난 5월 30일 대만에서 개최된 PC부품 전시회 컴퓨텍스(Computex) 2016 행
사에서 에이수스(ASUS)는 홈서비스 로봇인 ‘젠보(Zenbo)’를 공개했다. 젠보 역시
에코나 구글 홈처럼 음성 명령을 통해 다양한 인공지능 서비스를 제공할 수 있다.
예를 들면, 가족 사진을 촬영하거나 요리 레시피를 검색해서 알려줄 수 있으며,
TV나 에어컨 같은 가전제품을 제어할 수도 있다. 아이에게 동화를 읽어주고 노
년층에게는 약 먹는 시간 등 중요한 일정을 알려줄 수도 있다.
에코나 구글 홈과 다른 점이 있다면, 젠보는 자체 구동장치를 이용해서 이동할
수 있다는 것과 고해상도 카메라를 탑재하여 사물의 이미지나 사용자의 동작을
인식할 수 있다는 것이다. 이는 젠보가 단순히 목적하는 곳으로 이동하는 것을
넘어 TV와 같은 사물을 인식하여 그 앞으로 이동하거나 사용자를 졸졸 따라다
니며 서비스를 제공하는 것이 가능해짐을 의미한다. 젠보같은 이동형 홈서비스
로봇들에는 젠보 외에도 소프트뱅크의 페퍼(Pepper)나 로비스(Robis) 등이 있다.
젠보의 정식 출시일은 정해지지 않았지만, 가격은 599달러로 소프트뱅크의 페퍼
등과 같은 기존에 출시된 홈서비스 로봇에 비해 매우 저렴한 편이다. 에이수스
는 젠보의 발표와 함께 소프트웨어개발도구(SDK)를 공개하고 관련 어플리케이
션의 개발을 지원한다고 밝혔다. 단순히 컴퓨터나 스마트폰을 넘어서 스마트홈
분야로 진출하기 위한 제품을 출시했다기 보다는 로봇용 소프트웨어 생태계를
주도하겠다는 강한 의지가 엿보이는 대목이다.
그림 7. 에이수스의 홈서비스 로봇, 젠보
5) 국내의 음성인식 기반 홈IoT 서비스 디바이스
국내에서는 이동통신사를 중심으로 음성인식 기반 인공지능 서비스의 도입이 추
진 중에 있다. 이미 지난 6월에 AI 스마트홈 로봇인 ‘브이요(Vyo)’를 공개한 SK
텔레콤은 9월에 ‘누구(Nugu)’를 출시했다. 누구는 아마존의 에코나 구글의 구글
홈과 같은 무선 스피커 형태의 디바이스로 음악 스트리밍 서비스 및 날씨 등과
같은 생활정보 서비스를 제공할 예정이다. 또한, 스마트홈 디바이스의 제어 등에
도 활용할 예정이다. 그러나, 아직까지 음성인식 정확도가 떨어지는 편이며, 멜
론이나 SK텔레콤의 스마트홈 디바이스 등 일부 서비스와만 연동되는 한계도 보
이고 있다.
KT는 인공지능보다는 홈IoT에 초점을 맞춰 가정에 특화된 ‘오토(Otto)’를 출시할
계획이다. 지난 3월 MWC 2016에서 처음 선보인 오토는 삼성전자가 개발한 홈
서비스 로봇으로 스마트홈 서비스를 위한 허브 디바이스로 활용할 예정이다. 올
해 말이나 내년 초에 출시될 예정인 오토는 사용자의 음성에 반응해 KT 홈서비
스에 연동된 다양한 IoT 단말을 제어할 예정이다. LG유플러스의 경우 MIT 출신
자들이 설립한 미국 지보社의 ‘지보(Jibo)’를 이용하여 지능형 IoT 서비스를 본격
화할 예정이었으나, 한국어 인식 및 디바이스 인증 등의 이유로 한국 출시가 불
투명한 상황이다.
포털 사업자인 네이버도 올해 말이나 내년 초에 음성인식 기반 AI 홈비서를 출
시한다고 밝혔다. 아직 어떤 유형의 기기에 접목시킬지는 정해지지 않았다고 하
지만, 스피커 형태가 될 것이라는 예상이 지배적이다. 사실, 네이버는 이미 ‘링크
(Link)’라는 음성인식 서비스와 2016년 3월에 공개한 ‘라온(Laon)’이라는 인공지
능 서비스를 보유하고 있었기에 AI 홈비서 출시는 시간 문제였다. 특히, 라온의
경우 앞뒤 문맥을 파악해 문장의 뜻을 이해할 수 있으며, ‘DAN’이라는 자체 개
발한 알고리즘을 통해 여러 과정을 거쳐 정답을 추론한다고 한다. 또한, 이미지
인식 능력을 바탕으로 대화 내용과 개별 사물의 상관관계도 파악해서 처리할 수
있다고 한다.
이 외에 AKA 인텔리전스(AKA Intelligence)라는 스타트업이 인공지능 엔진인
‘뮤즈(Muse)’와 서비스 로봇인 ‘뮤지오(Musio)’를 개발하고 있다. 2015년 5월 크
라우드 펀딩 사이트인 인디고고(Indiegogo)를 통해 처음 선보인 뮤지오는 영어
를 기반으로 사용자와 지속적인 질문과 대화를 하며 사용자의 감정을 확인하고
그에 반응하는 소셜 로봇이다.
4. 주요 이슈
인터넷 트렌드에 대한 Mary Meeker의 자료에 따르면, 미국에서 음성 인식 서
비스를 이용하는 사용자는 2013년 30% 대에서 2015년 65%까지 상승했다고 한다.
구글 음성 검색도 2008년 대비 35배나 증가했으며, 중국의 바이두 음성인식 API의
호출 횟수도 최근 2년 사이에 4배가 증가하는 등 전체 검색에 있어서 음성 검색의
비율이 20%를 넘어서는 상황이다 [9]. 이처럼 음성인식 기반의 인공지능 서비스가
보편화 되는 과정에서 반드시 짚고 넘어가야 할 이슈들이 여러 가지 있는데, 가장
대표적인 세 가지가 바로 음성인식의 정확성과 자연어 처리, 보안 및 프라이버시,
그리고 서비스 종속성에 대한 것이다.
먼저, 음성인식의 정확성은 음성인식 기반의 인공지능 서비스 디바이스에서 가
장 기본이 되는 기능이다. Mary Meeker가 발표한 자료에 따르면, 2015년 기준
음성인식 정확도가 가장 뛰어난 서비스는 중국 바이두의 음성인식 서비스로
96% 수준이라고 한다. 미국의 디지털 비서 어플리케이션 하운드(Hound)와 애플의
시리의 정확도가 95%이며, 구글 나우는 92%의 정확도를 제공한다고 한다. 지난
2010년 주요 음성인식 서비스의 정확도가 70% 안팎에 그쳤던 것에 비하면 괄목
한 성장을 한 셈이다. 그러나, 실제로 상용 서비스를 위해서는 저소음 환경에서
99% 수준이 되어야 한다고 보고서는 밝히고 있다. 정확한 음성인식과 자연어
처리를 위해서는 음성 인식 알고리즘도 중요하지만, 음성 샘플의 개수가 충분히
확보되어야 한다. 아직까지는 음성인식 디바이스가 많지 않아서 샘플 데이터를
모으는 것이 쉽지 않았지만, 관련 디바이스들이 확산 보급되고 있기 때문에 음
성인식의 정확성 이슈는 조만간 해결될 것으로 전망된다.
자연어 처리는 음성인식을 바탕으로 문장을 통해 사용자의 의도를 파악하는
기술이다. 이 역시 음성 샘플의 개수가 중요하며, 관련 디바이스가 보급되고
이용이 보편화되면서 해결될 것으로 예상된다. 실제로 일본의 장난감 전문기업인
타카라토미(Takara Tomy)와 NTT Docomo가 공동으로 개발한 대화 로봇인 ‘오하
나스(OHaNAS, おはなす)’는 대화 맥락에 따라 동음이의어를 구분하는 것도 가
능한데, 이는 NTT Docomo가 2000년대 중반부터 수집한 충분한 음성 데이터
덕분이다.
보안 및 프라이버시 이슈와 관련해서는 사용자들의 음성이 언제 인식되고 어디에
저장되며 어떻게 보호되고 얼마나 오래 보관되며 누구에 의해 이용되는지가 중요
하다. 통상적으로 사용자의 음성명령은 ‘오케이 구글(OK Google)’이나 ‘헤이 시리
(Hey Siri)’, 혹은 ‘알렉사(Alexa)’ 등과 같은 말(wake word) 뒤의 따라오는 음성이
인식되고 개별 서비스 제공자의 클라우드 서버에 안전하게 저장되는 것으로 알
려지고 있다. 그러나, 기능적으로는 이러한 구동 명령이 없어도 사용자의 음성을
인식하는 것이 가능하다는 것은 이미 잘 알려진 사실이며, 이미 삼성전자의 스
마트TV가 동일한 이슈로 골치를 앓은 적도 있다. 사실, 이러한 구동 명령을 찾
아내기 위한 유일한 방법은 모든 소리를 수신하면서 이를 대기 중인 명령의 복
사본과 비교하는 것이기 때문이다.
대부분의 홈서비스 디바이스 장치의 경우, 구매와 동시에 사용자의 음성 정보의
녹취 및 저장에 동의하는 것으로 간주하고 있다. 그러나, 이는 일반적인 상식뿐만
아니라 법적인 기준에도 부합하지 않는다. 실제로 미국의 경우 1998년 제정된
어린이 온라인 개인정보 보호법(COPPA)은 온라인 서비스를 통한 13세 미만
어린이의 개인 정보 수집 또는 사용을 제한하고 있다 [10]. 이 법안은 부모의
명시적이고 입증 가능한 동의 없이 기업이 음성 녹음을 포함한 어린이의 개인
정보를 저장하는 행위를 금지하고 있다. 실제로 이는 어린이들만의 문제가 아니다.
각국의 정보기관에 의해 불법적으로 악용될 가능성도 배제할 수 없기 때문이다.
만약, 음성 정보뿐만 아니라 얼굴 인식 정보까지 함께 이용된다면 문제는 더욱
심각해질 수 있다. 설령, 사용자가 허락한 내용들만 수집되고 서비스를 위해
이용된다고 할 때, 사용자 정보를 이용할 수 있는 서비스 제공자의 범위가 어디
까지이어야 하는지에 대해서는 앞으로 깊이 있게 논의되어야 할 것이다. 참고로
애플은 사용자가 시리를 사용하면서 한 질문과 명령 등의 음성정보를 최대 2년간
저장한다.
음성인식 기반의 서비스 디바이스는 단순히 스마트 디바이스를 제어하는 것에
머물지 않을 것이다. 택시를 호출하거나 식당을 예약하는 것처럼 우리가 평소에
이용하던 서비스와도 연계될 것으로 전망되는데, 특정한 서비스의 경우 특정 사
업자에 종속될 가능성이 생긴다. 물론, 서비스 생태계를 활성화하기 위해 쇼핑이
라든지 식당 예약 등과 같은 서비스들은 모든 서비스 사업자에 개방되겠지만,
일부 서비스들은 홈서비스 디바이스 사업자와 특수 관계가 있는 기업이나 많은
광고료를 지불한 기업의 서비스와만 배타적으로 연결될 수도 있기 때문이다.
이렇게 되면, PC나 스마트폰에서 검색을 하는 경우 사용자는 검색 결과 중에서
하나를 선택할 수 있는 것과 달리 음성인식 기반의 검색 결과 가장 정확하거나
혹은 가장 많은 광고비를 낸 결과물만을 추천해줄 가능성이 크다.
5. 진화 방향 및 향후 전망
현재 소개되고 있는 음성인식 기반의 인공지능 서비스 디바이스는 음성 검색이나
가정용 스마트 가전의 제어와 같은 단편적인 스마트홈 서비스를 주된 목적으로
한다. 즉, 스마트폰으로 하던 것을 대체한다는 성격이 강하다. 그러나, 대화라는
인터페이스 방식의 편리함과 친숙함 덕분에 스마트홈 디바이스의 제어는 물론
택시를 호출하거나 식당을 예약하는 등 다양한 생활 편의 서비스로 확대 적용될
것으로 기대된다. 생활 편의 서비스 중개는 인공지능 서비스 사업자들에게 실질
적인 수익을 안겨다 줄 것이기 때문이다. 아마존의 에코가 거실의 램프나 온도
조절기를 제어하는데 그치지 않고 최근 다양한 온/오프라인 서비스를 중개하는
방향으로 서비스를 확대하고 있는 것도 같은 이유 때문일 것이다.
0%
10%
20%
30%
40%
50%
정보 서비스 오디오용 스피커 디바이스 제어 기타
(복수응답허용)
그림 8. 아마존 에코를 통해 이용하는 서비스 유형 분포 (출처 : CIRP)
이러한 음성인식 기반의 인공지능 서비스는 도입 초기에는 일반인들보다는 거동에
불편함이 있는 환자나 노인, 맹인들을 대상으로 하는 특수한 분야에서 먼저
도입될 가능성이 크며, 이내 다양한 유형의 기업 시장에서 활용될 것으로 예상
된다. 일본이나 유럽의 경우, 독거노인이나 환자들을 위한 홈서비스 로봇이나
대화형 로봇의 출시가 잇따르고 있으며, 중국의 바이두는 맹인들을 대상으로
길안내 서비스를 제공하는 이어셋 형태의 두라이트(Dulight)를 공개한 적도 있다.
산업 분야에서는 핸즈프리 기능이 필요한 곳에서 먼저 도입될 것으로 예상되는데,
산업용 차량뿐만 아니라 물류 창고 등과 같은 산업 현장에서 유용하게 이용될
수 있을 것이다. 아직 인공지능과는 결합되지 않았지만, 이미 코카콜라를 비롯한
다수의 기업들은 손이 자유롭지 않은 물류창고 직원들을 대상으로 음성인식 기
반의 업무 지시 서비스를 제공하고 있으며, 티센크루프(Thyssenkrupp)도 엘리베
이터 정비기사들을 대상으로 도입을 테스트하고 있다.
이러한 서비스는 음성인식뿐만 아니라 이미지 인식, 텍스트 분석 등의 기술들과
결합하여 더 다양하고 정밀한 서비스를 제공할 수 있을 것으로 기대된다. 또한,
사용자와 관련된 정보를 함께 활용하여 고객 맞춤형 서비스를 제공하거나, 과거
데이터나 사용자의 기호를 바탕으로 하는 예지(proactive) 서비스도 주목을 받을
것으로 예상된다. 음식배달, 꽃배달, 건강관리 서비스 등이 일찍부터 예지 기능
을 이용할 것으로 예상되며, 다양한 편의 서비스로 확대될 것으로 전망된다.
보안 관점에서 사용자의 목소리(聲紋)나 얼굴을 인식하는 것은 필수적인 것이
될 것이며, 그동안의 서비스 이용 패턴도 사용자를 인식하는데 활용될 수 있다.
또한, 음성인식 기반의 서비스 디바이스가 여러 명의 가족이 함께 이용하는 디
바이스라는 점에서 가족 구성원을 구분하고 구성원의 특성에 맞도록 서비스를
차등화 하는 것도 필요할 것이다. 또한, 심한 노이즈나 강한 의해 음성 명령을
제대로 인식하지 못하거나 사용자를 인식하지 못하는 경우에 대한 문제도 함께
고민되어야 할 것이다.
음성인식 기반의 인공지능 서비스를 제공하는 디바이스는 무선 스피커 형태뿐만
아니라 냉장고, 자동차, 스마트워치 등 그 종류가 다양해질 것이며, 이러한 여러
디바이스들 사이에서 서비스의 연속성과 일관성을 제공해야 할 것이다. 복수의
서비스 디바이스가 공존하는 상황에서는 서비스를 수행할 디바이스를 결정하기
위해 디바이스들 사이의 우선순위도 정해야 할 것이다.
마지막으로, 서비스 생태계를 주도하기 위한 치열한 경쟁이 관련 사업자들 사이
에서 전개될 것이다. 인터넷 산업에서와 마찬가지로 승자가 모든 것을 독식하리
라는 것을 이들은 잘 알고 있기 때문이다. 이와 관련해서는 음성인식 기반의
인공지능 서비스 플랫폼을 제공하는 사업자들뿐만 아니라, 이를 통해 다양한 부가
서비스를 제공하는 사업자들 사이에서도 해당 분야의 시장 점유율을 높이기 위한
경쟁이 일어날 것으로 예상된다.
국내 홈IoT 생태계도 단순히 디바이스를 모니터링하거나 제어하는 데서 벗어나
다양한 온라인/오프라인 서비스를 중개하는 쪽으로 바뀌어나가야 하는 이유도
바로 여기에 있다고 생각한다.
참고문헌
[1] Speech Recognition, Wikipedia.
[2] Artificial Intelligence, Wikipedia.
[3] Bud O’Par(김학용)의 Free WLAN 블로그, “NTT 도코모의 샤베테콘쉐루,”
2012. 8. 9, (http://freewlan.tistory.com/393)
[4] 박지선, “Apple의 Siri를 이긴 NTT Docomo의 ‘Shabette Concier’,” Platum,
2012. 9. 26, (http://platum.kr/archives/1424)
[5] James Risley, “Amazon Echo sales reach 3M units as consumer awareness
grows, research firm says,” Geekwire, April 6, 2016.
[6] Alexa Voice Service (AVS) (https://developer.amazon.com/public/solutions
lexa/alexa-voice-service)
[7] What is the Alexa Skills Kit? (https://developer.amazon.com/ask)
[8] Google Cloud Speech API (https://cloud.google.com/speech/)
[9] Mary Meeker, “Internet Trends 2016 – Code Conference,” KPCB, 2016.
(http://www.kpcb.com/internet-trends)
[10] Children's Online Privacy Protection Rule ("COPPA"),
(https://www.ftc.gov)

Contenu connexe

Tendances

O2O : IoT의 출발점_한경 MFC 발표 자료
O2O : IoT의 출발점_한경 MFC 발표 자료O2O : IoT의 출발점_한경 MFC 발표 자료
O2O : IoT의 출발점_한경 MFC 발표 자료
Donghyung Shin
 
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
atelier t*h
 

Tendances (20)

사물인터넷 강의(사물인터넷 트렌드 그리고 비즈니스)
사물인터넷 강의(사물인터넷 트렌드 그리고 비즈니스)사물인터넷 강의(사물인터넷 트렌드 그리고 비즈니스)
사물인터넷 강의(사물인터넷 트렌드 그리고 비즈니스)
 
O2O : IoT의 출발점_한경 MFC 발표 자료
O2O : IoT의 출발점_한경 MFC 발표 자료O2O : IoT의 출발점_한경 MFC 발표 자료
O2O : IoT의 출발점_한경 MFC 발표 자료
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
사물인터넷, 이제는 서비스다!
사물인터넷, 이제는 서비스다!사물인터넷, 이제는 서비스다!
사물인터넷, 이제는 서비스다!
 
사물인터넷 강의
사물인터넷 강의사물인터넷 강의
사물인터넷 강의
 
4차 산업혁명 시대의 스마트홈 전략
4차 산업혁명 시대의 스마트홈 전략4차 산업혁명 시대의 스마트홈 전략
4차 산업혁명 시대의 스마트홈 전략
 
Iot 시장, 성급한 기대보다 소비자의 눈으로 봐야
Iot 시장, 성급한 기대보다 소비자의 눈으로 봐야Iot 시장, 성급한 기대보다 소비자의 눈으로 봐야
Iot 시장, 성급한 기대보다 소비자의 눈으로 봐야
 
IoT 기반의 스마트홈 디바이스 및 서비스를 위한 비즈니스 확대방안
IoT 기반의 스마트홈 디바이스 및 서비스를 위한 비즈니스 확대방안IoT 기반의 스마트홈 디바이스 및 서비스를 위한 비즈니스 확대방안
IoT 기반의 스마트홈 디바이스 및 서비스를 위한 비즈니스 확대방안
 
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
초연결시대 사물인터넷(Io t)의 창조적 융합 활성화 방안
 
Ces 2021 review - All Digital Paradigm in the On-tact Era - 2021.02
Ces 2021 review - All Digital Paradigm in the On-tact Era - 2021.02Ces 2021 review - All Digital Paradigm in the On-tact Era - 2021.02
Ces 2021 review - All Digital Paradigm in the On-tact Era - 2021.02
 
사물인터넷의 활용법과 업무활용
사물인터넷의 활용법과 업무활용사물인터넷의 활용법과 업무활용
사물인터넷의 활용법과 업무활용
 
4차 산업혁명의 디지털화 기술들 김학용, 박진수
4차 산업혁명의 디지털화 기술들   김학용, 박진수4차 산업혁명의 디지털화 기술들   김학용, 박진수
4차 산업혁명의 디지털화 기술들 김학용, 박진수
 
20141002 IoT 시장 기회와 고려 사항_Devmento 강의_O2O, Lineable 추가 버전
20141002 IoT 시장 기회와 고려 사항_Devmento 강의_O2O, Lineable 추가 버전20141002 IoT 시장 기회와 고려 사항_Devmento 강의_O2O, Lineable 추가 버전
20141002 IoT 시장 기회와 고려 사항_Devmento 강의_O2O, Lineable 추가 버전
 
포스트 스마트폰 IoT 비즈니스
포스트 스마트폰 IoT 비즈니스포스트 스마트폰 IoT 비즈니스
포스트 스마트폰 IoT 비즈니스
 
B2C 산업 분야의 디지털 트랜스포메이션 적용 사례 및 활용 방안
B2C 산업 분야의 디지털 트랜스포메이션 적용 사례 및 활용 방안B2C 산업 분야의 디지털 트랜스포메이션 적용 사례 및 활용 방안
B2C 산업 분야의 디지털 트랜스포메이션 적용 사례 및 활용 방안
 
사물인터넷 IoT 기반의 뷰티 헬스케어 산업의 비즈니스 패러다임 변화
사물인터넷 IoT 기반의 뷰티 헬스케어 산업의 비즈니스 패러다임 변화사물인터넷 IoT 기반의 뷰티 헬스케어 산업의 비즈니스 패러다임 변화
사물인터넷 IoT 기반의 뷰티 헬스케어 산업의 비즈니스 패러다임 변화
 
사물인터넷 시대의 보안 이슈와 대책
사물인터넷 시대의 보안 이슈와 대책사물인터넷 시대의 보안 이슈와 대책
사물인터넷 시대의 보안 이슈와 대책
 
2015년 사물인터넷 시장 전망 및 비즈니스 전략
2015년 사물인터넷 시장 전망 및 비즈니스 전략2015년 사물인터넷 시장 전망 및 비즈니스 전략
2015년 사물인터넷 시장 전망 및 비즈니스 전략
 
Trillion 센서, iot 시대 열고 있다
Trillion 센서, iot 시대 열고 있다Trillion 센서, iot 시대 열고 있다
Trillion 센서, iot 시대 열고 있다
 
인공지능 발전이 가져올 2030년의 삶
인공지능 발전이 가져올 2030년의 삶인공지능 발전이 가져올 2030년의 삶
인공지능 발전이 가져올 2030년의 삶
 

Similaire à 음성인식 기반 홈IoT 제품서비스 동향 및 시사점 스마트홈산업협회 (순천향대학교 김학용 교수)

모바일 앱 발표
모바일 앱 발표모바일 앱 발표
모바일 앱 발표
승현 황
 
신동형의 발로 뛰는 ICT Insight Vol3
신동형의 발로 뛰는 ICT Insight Vol3신동형의 발로 뛰는 ICT Insight Vol3
신동형의 발로 뛰는 ICT Insight Vol3
Donghyung Shin
 
글로벌 방송통신 동향리포트_55호
글로벌 방송통신 동향리포트_55호글로벌 방송통신 동향리포트_55호
글로벌 방송통신 동향리포트_55호
saymi76 lee
 

Similaire à 음성인식 기반 홈IoT 제품서비스 동향 및 시사점 스마트홈산업협회 (순천향대학교 김학용 교수) (20)

Ux discovery 5th rightbrain_part1
Ux discovery 5th rightbrain_part1Ux discovery 5th rightbrain_part1
Ux discovery 5th rightbrain_part1
 
모바일 앱 발표
모바일 앱 발표모바일 앱 발표
모바일 앱 발표
 
구글I/O 2016 review
구글I/O 2016 review구글I/O 2016 review
구글I/O 2016 review
 
Ready~ Action! on Google
Ready~ Action! on GoogleReady~ Action! on Google
Ready~ Action! on Google
 
Rightbrain UX DISCOVERY 4th-part1
Rightbrain UX DISCOVERY 4th-part1Rightbrain UX DISCOVERY 4th-part1
Rightbrain UX DISCOVERY 4th-part1
 
라즈베리파이와자바스크립트로만드는 IoT
라즈베리파이와자바스크립트로만드는 IoT라즈베리파이와자바스크립트로만드는 IoT
라즈베리파이와자바스크립트로만드는 IoT
 
아이애드
아이애드아이애드
아이애드
 
아이애드
아이애드아이애드
아이애드
 
아이애드
아이애드아이애드
아이애드
 
UX Discovery 6th Rightbrain_part1
UX Discovery 6th Rightbrain_part1UX Discovery 6th Rightbrain_part1
UX Discovery 6th Rightbrain_part1
 
Ux trend report 2014 smart_home
Ux trend report 2014 smart_homeUx trend report 2014 smart_home
Ux trend report 2014 smart_home
 
신동형의 발로 뛰는 ICT Insight Vol3
신동형의 발로 뛰는 ICT Insight Vol3신동형의 발로 뛰는 ICT Insight Vol3
신동형의 발로 뛰는 ICT Insight Vol3
 
Ux trend report 7월
Ux trend report 7월Ux trend report 7월
Ux trend report 7월
 
글로벌 방송통신 동향리포트_55호
글로벌 방송통신 동향리포트_55호글로벌 방송통신 동향리포트_55호
글로벌 방송통신 동향리포트_55호
 
I pad 이선주
I pad 이선주I pad 이선주
I pad 이선주
 
시스코 모바일 엔터프라이즈 시스코와 애플이 시작합니다
시스코 모바일 엔터프라이즈 시스코와 애플이 시작합니다시스코 모바일 엔터프라이즈 시스코와 애플이 시작합니다
시스코 모바일 엔터프라이즈 시스코와 애플이 시작합니다
 
인공지능과 생활의 변화
인공지능과 생활의 변화인공지능과 생활의 변화
인공지능과 생활의 변화
 
이주의 It뉴스 4월 셋째주
이주의 It뉴스 4월 셋째주이주의 It뉴스 4월 셋째주
이주의 It뉴스 4월 셋째주
 
ICT기획시리즈 어플리케이션마켓플레이스
ICT기획시리즈 어플리케이션마켓플레이스ICT기획시리즈 어플리케이션마켓플레이스
ICT기획시리즈 어플리케이션마켓플레이스
 
Rightbrain - UX trend report - July, 2014
Rightbrain - UX trend report - July, 2014Rightbrain - UX trend report - July, 2014
Rightbrain - UX trend report - July, 2014
 

Plus de Hakyong Kim

Plus de Hakyong Kim (20)

스마트홈 연동 표준 매터(Matter) 관련 소식 업데이트
스마트홈 연동 표준 매터(Matter) 관련 소식 업데이트스마트홈 연동 표준 매터(Matter) 관련 소식 업데이트
스마트홈 연동 표준 매터(Matter) 관련 소식 업데이트
 
Matter, open source connectivity standard for smart home and io t 2021.07.0...
Matter, open source connectivity standard for smart home and io t   2021.07.0...Matter, open source connectivity standard for smart home and io t   2021.07.0...
Matter, open source connectivity standard for smart home and io t 2021.07.0...
 
크로스 플랫폼을 지배하는 자가 플랫폼 업계를 지배한다
크로스 플랫폼을 지배하는 자가 플랫폼 업계를 지배한다크로스 플랫폼을 지배하는 자가 플랫폼 업계를 지배한다
크로스 플랫폼을 지배하는 자가 플랫폼 업계를 지배한다
 
CES 2021에서 확인된 Digital Healthcare 트렌드
CES 2021에서 확인된 Digital Healthcare 트렌드CES 2021에서 확인된 Digital Healthcare 트렌드
CES 2021에서 확인된 Digital Healthcare 트렌드
 
국내 스마트홈 사업자 동향 및 스마트홈 서비스 트렌드
국내 스마트홈 사업자 동향 및 스마트홈 서비스 트렌드국내 스마트홈 사업자 동향 및 스마트홈 서비스 트렌드
국내 스마트홈 사업자 동향 및 스마트홈 서비스 트렌드
 
디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...
디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...
디지털 트랜스포메이션의 이해와 도입 사례 - Understanding of digital transformation and examples...
 
테슬라, 제2의 아마존
테슬라, 제2의 아마존테슬라, 제2의 아마존
테슬라, 제2의 아마존
 
IoT가 4차 산업혁명에 미치는 파급효과 및 정책적 대응방안 - 2019.07.25
IoT가 4차 산업혁명에 미치는 파급효과 및 정책적 대응방안 - 2019.07.25IoT가 4차 산업혁명에 미치는 파급효과 및 정책적 대응방안 - 2019.07.25
IoT가 4차 산업혁명에 미치는 파급효과 및 정책적 대응방안 - 2019.07.25
 
혁신을 넘는 디지털 트랜스포메이션 전략
혁신을 넘는 디지털 트랜스포메이션 전략혁신을 넘는 디지털 트랜스포메이션 전략
혁신을 넘는 디지털 트랜스포메이션 전략
 
5G 기술과 활용 (5G technology and services) - 2019.05.11
5G 기술과 활용 (5G technology and services) - 2019.05.115G 기술과 활용 (5G technology and services) - 2019.05.11
5G 기술과 활용 (5G technology and services) - 2019.05.11
 
로봇의 현재와 미래
로봇의 현재와 미래로봇의 현재와 미래
로봇의 현재와 미래
 
고객가치 중심의 5G 요금제를 기대한다
고객가치 중심의 5G 요금제를 기대한다고객가치 중심의 5G 요금제를 기대한다
고객가치 중심의 5G 요금제를 기대한다
 
스마트홈 제품+서비스 융합 비즈니스 전략
스마트홈 제품+서비스 융합 비즈니스 전략스마트홈 제품+서비스 융합 비즈니스 전략
스마트홈 제품+서비스 융합 비즈니스 전략
 
사물인터넷 사업화 전략 과정 교육 제안서
사물인터넷 사업화 전략 과정 교육 제안서사물인터넷 사업화 전략 과정 교육 제안서
사물인터넷 사업화 전략 과정 교육 제안서
 
사물인터넷, 물리보안에 날개를 달다
사물인터넷, 물리보안에 날개를 달다사물인터넷, 물리보안에 날개를 달다
사물인터넷, 물리보안에 날개를 달다
 
아마존 강의 : 아마존은 어떻게 1조 달러 기업이 되었나?
아마존 강의 : 아마존은 어떻게 1조 달러 기업이 되었나?아마존 강의 : 아마존은 어떻게 1조 달러 기업이 되었나?
아마존 강의 : 아마존은 어떻게 1조 달러 기업이 되었나?
 
사물인터넷 강의 : 제67회 한남피부과학회 (전주)
사물인터넷 강의 : 제67회 한남피부과학회 (전주)사물인터넷 강의 : 제67회 한남피부과학회 (전주)
사물인터넷 강의 : 제67회 한남피부과학회 (전주)
 
4차 산업혁명과 소프트웨어 강의
4차 산업혁명과 소프트웨어 강의 4차 산업혁명과 소프트웨어 강의
4차 산업혁명과 소프트웨어 강의
 
디지털 트랜스포메이션 강의
디지털 트랜스포메이션 강의디지털 트랜스포메이션 강의
디지털 트랜스포메이션 강의
 
NodeMcu로 시작하는 사물인터넷 DIY
NodeMcu로 시작하는 사물인터넷 DIYNodeMcu로 시작하는 사물인터넷 DIY
NodeMcu로 시작하는 사물인터넷 DIY
 

음성인식 기반 홈IoT 제품서비스 동향 및 시사점 스마트홈산업협회 (순천향대학교 김학용 교수)

  • 1. 홈IoT 산업 이슈분석 (2016. 10) 음성인식 기반 홈IoT 제품/서비스 동향 및 시사점 『음성인식 기반 홈IoT 제품/서비스 동향 및 시사점』 순천향대학교 IoT보안연구센터 김학용 교수 iotstlabs@gmail.com, 010-4711-1434 1. 개요 구글은 지난 5월 18일에 열린 ‘Google I/O 2016’에서 ‘구글 홈(Google Home)’ 이라는 음성인식 기반의 인공지능 서비스 디바이스를 공개했다. 구글 홈은 구글의 음성인식 기반 인공지능 서비스인 ‘구글 어시스턴트(Google Assistant)’와 연결되어 사용되는 홈서비스 디바이스로, 사용자와의 자연스러운 대화를 통해 사용자의 의도나 명령을 인식하고 그에 맞는 서비스를 제공하는 일종의 가상 비서 역할을 하는 장치다. 사실, 구글홈과 같은 음성인식 기반의 인공지능 서비스 디바이스가 출시된 것은 이번이 처음이 아니다. 잘 알려진 것처럼 아마존(Amazon)은 이미 2014년 11월에 ‘에코(Echo)’를 출시하여 현재까지 전세계적으로 400만대 이상을 판매하기도 했 으며, 아마존 외에도 다양한 기업들이 다양한 형태와 차별화된 기능을 제공하는 음성인식 기반의 서비스 디바이스들을 출시했거나 곧 출시할 예정이다. 음성인식 기반의 사용자 인터페이스 기술과 인공지능 기반의 서비스 제공 기술 들이 수십 년 전부터 연구되어 왔다는 것은 주지의 사실이다. 그럼에도 불구하고, 최근에 들어서야 이러한 기술과 장치들이 상용화되며 주목을 받기 시작하는 이유는 무엇일까? 본 고에서는 최근 들어 관심이 집중되고 있는 음성인식 기반 의 홈IoT제품/서비스와 관련된 시장 동향 및 기술에 대해 살펴보고 향후 발전 방향 및 비즈니스 관점에서의 시사점을 도출해 보고자 한다. 2. 음성인식 기반 서비스 디바이스의 역사 최초의 음성 인식에 대한 연구는 지금으로부터 80여 년 전인 1932년 벨랩(Bell Labs)에서부터 시작되었으며, 인공지능에 대한 공식적인 연구는 1943년부터 본격적으로 시작된 것으로 알려지고 있다 [1][2]. 이 즈음의 연구는 그 동안
  • 2. 상상이나 소설 속에서 존재하던 생각들, 즉 컴퓨터가 사람의 말을 이해하고 그에 해당하는 기능이나 서비스를 제공하는 것을 이론적으로 연구하고 실제로 구현해 보는 수준에 불과했으며, 이후 컴퓨팅 기술과 유무선 통신기술의 고도화와 발맞 추어 현실적인 응용 관점에서의 연구가 진행되기 시작했다. 한편, 최근에 경쟁적으로 소개되고 있는 음성인식 기반의 인공지능 서비스의 역사는 약 10여 년 전으로 거슬러 올라간다. 그러나, 10여 년 전인 2000년대 초 반만 하더라도 음성인식 기술은 특정한 화자(話者)만을 대상으로 단어나 단문을 인식하는 수준이었다. 주로 핸드폰 제조사 주도로 관련 기술이 도입되기 시작했 으며, 음성으로 전화를 걸거나 특정한 기능을 실행시키는 등 서비스라기보다는 단말기 기능에 대한 새로운 형태의 인터페이스 성격이 강했다. 이후 모바일 프로세서의 성능이 고도화 되고 2000년대 후반에 WCDMA, HSPA 등 고속 무선 통신기술이 도입됨에 따라 화자에 상관없이 음성을 인식하고 클라우드를 기반으로 하여 단어가 아닌 문장을 이해하거나 문장의 변형된 패턴을 인식하고 그에 상응하는 서비스를 제공하는 쪽으로 발전하기 시작했다. 대표적인 서비스로는 일본 NTT Docomo가 제공하던 샤베테컨쉐루(しゃべってコンシェル, Shabete-Concier)가 있다 [3]. 샤베테컨쉐루는 2012년 안드로이드 기반의 어플로 도 출시되었으며, 당시 음성인식 정확도가 90% 이상으로 다른 음성인식 서비스 들에 비해 매우 정확했다 [4]. LTE 서비스가 시작된 2011년 7월 이후, 단말기 제조사들은 다시 한 번 음성인식 기술의 도입을 추진하게 되는데, 대표적인 것이 애플의 ‘시리(Siri)’와 구글의 ‘구글 나우(Google Now)', 마이크로소프트의 ’코타나(Cortana)' 등이다. 2011년 10월에 출시된 아이폰 4S와 함께 공개된 시리는 본격적으로 음성인식 기술과 인 공지능 기술을 결합하기 시작했다. 기존의 음성인식 기술들이 인식된 단어와 관 련하여 사전에 지정된 기능을 실행했던 것과 달리, 시리는 사용자의 질문이나 명령을 해석한 후 그에 적절한 대답을 들려주거나 필요한 앱(App)을 동작시켜 주었다. 스마트폰용 OS를 제공하던 구글은 애플보다 1년 늦은 2012년 7월에 구 글 나우를 출시하였으며, 마이크로소프트는 2014년 4월에 코타나를 출시했다. 시리나 구글 나우, 코타나 등이 스마트폰 기반으로 하는 음성인식 서비스였다면, 2014년 11월에 출시된 아마존의 ‘알렉사(Alexa)’는 ‘에코(Echo)’라고 하는 홈서비스 디바이스를 기반으로 하는 음성인식 서비스라 할 수 있다. 그리고, 이러한 트렌드는 지난 5월에 발표한 구글의 구글홈과 6월에 발표한 에이서스(ASUS)의 ‘젠보 (Zenbo)’ 등으로 이어진다. 국내의 경우, 삼성전자는 2012년 5월에 음성인식 기반 개인비서 어플리케이션인 ‘S보이스’를 갤럭시 S3와 함께 공개했다. 초기 S보이스는 전화를 걸거나 특정한 어플리케이션을 실행하는 등 스마트폰에 내장되어 있는 기능들을 실행하거나 포털 사이트의 검색 서비스에 연결하여 적합한 정보를 찾는 수준이었으나, 이후 클라우드 시스템을 이용하여 간단한 대화를 하는 수준으로까지 발전했다. LG전자 역시 2012년 7월 지능형 음성인식 솔루션인 ‘Q보이스’를 출시했다. Q보이스는 음성식 솔루션인 ‘퀵보이스’가 진화한 것으로 자연어 인식을 바탕으로 개인맞춤형 서비 스를 제공하는 것을 목표로 하고 있었으며, 스마트폰은 물론 스마트 TV 등과 같 은 다양한 스마트 가전에 활용되고 있다. 3. 대표적인 음성인식 기반 인공지능 서비스 및 서비스 디바이스 음성인식 기반 서비스는 크게 음성제어형과 개인비서형으로 나누어 생각할 수 있다. 음성제어형은 음성인식 결과를 바탕으로 관련된 디바이스를 제어하거나 특정한 기능 및 어플리케이션을 수행하는 것을 말한다. 따라서, 엄밀한 의미에서는 인공지능 서비스라 할 수 없으며, 주로 초기에 음성인식 기술을 수용한 디바이스 에서 발견된다. 반면, 개인비서형 서비스는 문장을 분석하여 사용자의 의도를 파악한 후 사용자에게 적합한 서비스를 추천하거나 관련된 외부 서비스를 중개 해 준다. 따라서, 개인비서형 서비스에서는 동일한 음성 명령이 주어질지라도 사 용자에 따라서 제공되는 서비스가 달라질 수 있다. 일반적으로, 개인비서형 서비스 에는 음성제어형 서비스가 기본적인 서비스로 포함된다. 이 절에서는 인공지능을 바탕으로 하는 음성인식 기반의 개인비서형 서비스 디바이스들에 대해 소개하고 주요 특징들을 비교하고자 한다. 대표적인 음성인식 기반 인공지능 서비스에는 앞에서 소개한 아마존의 알렉사, 구글의 구글 어시스 턴트, 애플의 시리 등이 있으며, 로봇 형태의 홈서비스 디바이스를 출시한 에이 서스(Asus)의 ‘젠보(Zenbo)’도 함께 소개하고자 한다.
  • 3. 1) Amazon의 에코와 알렉사 2014년 11월에 공개된 아마존 에코는 대표적인 음성인식 기반의 인공지능 서비스 디바이스로 현재까지 400만대 이상 판매된 것으로 알려지고 있다. 아마존 에코는 원통형의 무선 스피커로, 상단부에는 7개의 마이크를 탑재하고 있다. 여러 개의 마이크를 이용하여 소리가 들리는 방향과 거리를 계산하고, 이를 바탕으로 더욱 정확하게 음성을 인식하도록 하기 위함이다. 이러한 원거리 음성 인식 (far-field voice recognition) 기술 덕분에 주위에 소음이 있는 환경에서도 6~7미 터 떨어진 곳에서 음성으로 명령을 내리는 것이 가능하다. 사실, 아마존 에코는 음성과 바코드를 인식해서 식료품이나 생필품의 주문을 쉽게 해주는 ‘아마존 대시(Amazon Dash)'의 후속 디바이스 성격이 크다. 아마존 대시도 음성이나 바코드 인식을 통해 인터넷 쇼핑에 대한 UI/UX를 개선시켜주 기는 했지만, 이를 위해서는 사용자가 아마존 대시가 있는 곳으로 이동해야 했고 대시 디바이스를 손에 쥐고 마이크 버튼을 눌러야 하는 불편함이 존재했다. 또한, 주문이 제대로 되었는지 확인하기 위해서는 추후 아마존닷컴에 로그인을 해야만 했다. 아마존 에코는 이와 같은 아마존 대시의 모든 불편함을 개선한 제 품이다. 주방이나 거실의 어디서나 말만하면 되며(hands-free), 음성명령에 대한 피드백도 음성을 통해 알려준다. 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 2015년 3월 2015년 6월 2015년 9월 2015년 12월 그림 1. 아마존 에코에 대한 아마존 고객들의 인식도 조사 (출처: CIRP) 아마존 에코와 함께 이용되는 알렉사의 음성인식 정확도에 대해서는 아직 공개 된 것이 없으나 95% 내외인 것으로 추정되고 있으며, 지속적으로 사용자의 발 음을 학습함으로써 음성인식의 정확도를 높이고 있다. 아마존 에코는 사용자의 음성뿐만 아니라 서비스 이용 패턴까지도 함께 분석해 갈수록 똑똑해진다고 한 다. 이러한 이유 때문에 아마존 에코를 이용하는 사람들이 꾸준히 늘고 있다. 미 국 소비자행동조사 및 분석기관인 CIRP(Consumer Intelligence Research Partners)에 따르면, 그림 1에 보이는 것처럼 아마존 에코에 대한 아마존 고객들 의 인식도는 1년 사이에 두 배 이상 증가한 것으로 나타나고 있다 [5]. 아마존은 알렉사를 중심으로 하는 음성인식 기반의 인공지능 서비스 생태계를 확장하기 위해 빠르고 공격적인 움직임을 보이고 있다. 대표적인 것이 인터페이 스 장치의 라인업을 확대하는 것과 이런 장치를 통해 제공할 수 있는 서비스의 종류를 늘리기 위한 노력이다. 인터페이스 장치의 라인업을 확대하기 위해서 아마존은 기존에 판매하던 아마존 파이어 TV에서도 알렉사를 지원하기 시작했으며, 2016년 3월에는 ‘에코 탭(Echo Tap)’과 '에코 닷(Echo Dot)'을 출시하기도 했다. 에코 탭은 아마존 에코의 휴대 용 버전으로, 배터리를 절약하기 위해 디바이스를 ‘탭(Tap)' 해야만 음성 명령에 반응하게 된다. 에코 닷은 가정이나 사무실 등에서 아마존 에코와 함께 사용함 으로써 공간적인 측면에서 아마존 에코의 서비스 영역을 넓혀주기 위한 것이다. 하키팩 형태의 아주 작은 크기의 제품으로 스피커 기능은 최소화 되었다. 그림 2. Alexa Voice Service (AVS) 개념도 아마존은 써드파티의 디바이스에서도 알렉사를 이용할 수 있도록 하기 위해 Amazon Voice Service (AVS)를 공개하기도 했다. AVS는 마이크와 스피커가 내 장되어 있는 써드파티의 디바이스에 알렉사의 기능을 이용할 수 있도록 하는 API에 해당하는 것으로, 대화 인식과 자연어 처리에 대한 아무런 배경 지식이
  • 4. 없을지라도 손쉽게 음성 기반의 인터페이스 환경을 구축할 수 있게 해 준다 [6]. 인디고고(Indiegogo)를 통해 스마트워치의 크라우드 펀딩을 진행했던 코워치 (CoWatch)나 페블(Pebble)이 출시한 액티비티 트래커인 페블 코어(Pebble Core) 등이 이미 AVS를 이용하고 있으며, 아두이노나 라즈베리파이와 같은 개발보드 를 이용해서 알렉사를 지원하는 장치를 만드는 것도 가능하다. AVS는 스마트홈이나 웨어러블 디바이스들뿐만 아니라 자동차 등 다양한 디바이스 에서도 이용될 것으로 전망된다. 일례로, 2016년에 미국에서 출시되는 제너시스 G80과 G90 및 포드(Ford)와 BMW 자동차의 일부 모델에서도 AVS가 탑재되어 이용될 예정이다. 이렇게 되면, 거실에서 아마존 에코를 이용해서 집밖에 있는 자동차의 시동을 거는 것이 가능하며, 반대로 자동차에서 집안의 가전제품을 제 어하는 것도 가능해진다. 이 외에도 미국에서 출시되는 LG전자의 가전제품들도 알렉사를 이용할 수 있을 것이라고 한다. 그림 3. 아마존의 음성인식 기반 인공지능 서비스 생태계 AVS와 별도로, 써드파티가 알렉사에게 새로운 기능을 추가할 수 있도록 하기 위해 아마존은 외부 개발자들에게 알렉사 스킬 키트(Alexa Skill Kit, ASK)를 공 개하고 있다 [7]. 써드파티의 개발자들은 몇 줄의 코드를 추가하는 것만으로 자 사 제품에서 음성 명령 기반의 기능들을 제공할 수 있게 된다. 아마존과 GE가 함께 개발한 제네바 스킬(Geneva Skill)을 예로 들면, 사용자들은 아마존 에코에 대고 “Alexa, tell Geneva to preheat the oven to 350 degrees! (알렉사, 오븐을 350도로 예열하라고 제네바에게 알려줘!)”와 같은 방식으로 명령함으로써 오븐 을 포함한 GE의 다양한 가전제품들을 제어하는 것이 가능해진다. 즉, 제네바는 GE의 가전제품들을 위한 알렉사에 해당한다고 생각하면 된다. GE의 제네바처럼 별도의 스킬 키트를 이용하지 않는 경우는 스마트홈 스킬 키 트(Smart Home Skill Kit)처럼 이미 만들어진 스킬 키트를 이용할 수 있다. 커넥 티드 디바이스 제조사들은 스마트홈 스킬 API를 이용하여 알렉사에게 자사의 스마트홈 디바이스를 제어하는 방법을 알려줄 수 있다. 최근 테크크런치 (TechCrunch)의 보도에 따르면, 2016년 9월 중순 기준 알렉사 스킬의 개수는 3,000여 개로 6월말 1,000개의 3배에 달한다고 한다. 2) Google의 구글 홈과 구글 어시스턴트 구글은 지난 5월 18일 구글 개발자 회의인 Google I/O 2016에서 무선 스피커 형태의 홈서비스 디바이스인 구글 홈을 발표했다. 구글 홈은 아마존 에코와 비 슷하게 대화 방식을 통해 사용자의 음성 명령을 인식하고 그에 맞는 서비스를 제공하는 가상 비서 서비스 장치로, 스트리밍 방식으로 음악을 플레이하고 날씨, 뉴스, 주식 등의 생활 정보를 제공하며 가정용 스마트 기기를 제어하고 쇼핑을 하거나 식당을 예약하는 것이 가능하다. 그림 4. 출시 예정인 구글의 음성인식 기반 인공지능 서비스 디바이스, 구글 홈
  • 5. 구글 홈과 함께 사용되는 인공지능 서비스인 구글 어시스턴트는 머신러닝 기술 을 활용하여 기존보다 자연어 처리 능력이 훨씬 자연스러워지고 문맥까지 파악 할 수 있다는 것이 대표적인 특징이다. 예를 들어, “홍릉과학출판사에서 발행한 사물인터넷이라는 책의 저자가 누구지?”라고 질문한 후 “그의 주요 이력을 알려 줘!”라고 명령을 하게 되면 김학용에 대한 이력을 검색해서 알려주게 된다. 구글 홈과 구글 어시스턴트가 이처럼 다양한 서비스를 제공하기는 하지만, 구글 이 구글 홈을 출시한 근본적인 목적은 구글의 메인 비즈니스인 검색 및 광고 서 비스의 생태계를 강화하는 것이라 생각된다. 대화라는 자연스러운 방식을 이용 해서 스마트폰이나 PC가 없더라도 언제 어디서나 구글의 검색 서비스를 이용할 수 있도록 하려는 것이다. 이는 아마존의 에코와 알렉사가 근본적으로 아마존이 제공하는 이커머스나 컨텐츠 서비스의 활성화에 초점이 맞춰져 있는 것과 같은 맥락에서 이해할 수 있다. 단지 차이가 있다면, 아마존은 에코의 성공을 기반으 로 음성인식 기반의 생태계를 확장해 나가기 위한 노력을 하고 있는 반면에 구 글은 이미 구축된 생태계를 구글 어시스턴트와 통합하려 한다는 것이다. 그림 5. 구글의 클라우드 스피치 API의 활용 예시 이를 위한 사전 작업으로 지난 3월 23일 구글은 ‘클라우드 스피치(Cloud Speech) API’를 공개했다 [8]. 클라우드 스피치 API는 오디오를 텍스트로 바꿔주 는 기술로 딥러닝 뉴럴 네트워크 알고리즘을 이용하고 있다. 한국어를 포함하여 전세계 80개 언어를 지원하며, 부적절한 콘텐츠를 따로 걸러내는 필터링 기능도 제공한다. 실시간으로 언어를 인식하고 해석할 수 있으며, 기존에 녹음된 파일을 읽을 수도 있다. 구글 음성 검색이나 음성으로 조작할 수 있는 앱 등에 활용되고 있으며, 소음에 크게 영향을 받지 않는 등 높은 음성인식 정확도를 제공한다. 7월 25일에 공개된 베타 버전에는 문맥에 알맞은 단어 및 어구를 추가해 주는 기술인 ‘워드 힌트(Word Hint)’와 클라우드 스피치 API의 호출 속도를 개선하는 ‘비동 기식 호출’ 기능이 추가 됐다. 구글은 구글 홈 출시 이전에도 이미 네스트(Nest)라는 스마트홈 플랫폼이나 온 허브(OnHub)라는 게이트웨이 디바이스를 출시한 바 있다. 그럼에도 불구하고 새로이 구글 홈을 출시한 것은 스마트홈을 구성하는 디바이스들을 통합하고 원 격에서 모니터링하거나 제어하는 수준을 넘어서는 집과 관련된 생활 편의 서비스를 제공하겠다는 강력한 의지의 표현으로 이해할 수 있다. 네스트나 온허브를 통해 통합된 디바이스들을 통해 구글이 가지고 있는 서비스 및 다른 서비스 사업자들의 서비스를 중개해 줌으로써 직접적인 수익을 올리고자 하는 것이다. 3) Apple의 시리 애플은 스마트폰에 음성인식 기능을 가장 일찍 도입하긴 했지만, 음성인식 기 반의 인공지능 서비스 생태계를 확장하는 데에 있어서는 그다지 적극적이지 않 았다. 그러나, 아마존이나 구글같은 경쟁자들의 발빠른 횡보에 위기감을 느꼈는지, 최근에는 생태계 확장을 위한 다양한 노력을 진행하고 있다. 대표적인 것이 스 마트폰에서만 이용할 수 있던 시리를 최근에 출시된 애플워치2와 애플TV는 물론 PC나 노트북에서도 이용할 수 있도록 한 것이다. 특히, PC 및 노트북 운영체제인 ‘맥OS 시에라 (macOS Sierra)’에도 탑재하여 맥 PC나 노트북 이용자가 궁금한 점을 음성으로 말하면 시리가 관련된 정보를 찾아주게 된다. 이 외에도 아마존의 에코와 같은 무선 스피커형 서비스 디바이스를 공개할 것이 라는 전망도 나오고 있다. 이와 관련해서는 아직까지는 공식적인 발표가 없지만, 스피커 전문기업인 Beats by Dr. Dre를 보유하고 있기에 머지않아 에코나 구글 홈과 같은 스피커 형태의 홈서비스 디바이스가 출시될 것으로 예상된다. 만약, 스피커형 디바이스가 출시된다면 애플의 스마트홈 서비스 플랫폼인 ‘홈(Home)’ 과 결합하여 음성으로 가정용 장치들을 제어하고 다양한 생활 서비스를 중개할 것으로 기대된다.
  • 6. 그림 6. 시리를 이용해 위챗으로 메시지를 전송하는 장면 프라이버시 이슈로 그 동안 폐쇄적인 정책을 고수해 오던 애플은 6월 13일 개 최된 ‘세계개발자회의(WWDC) 2016’에서 시리의 소프트웨어개발키트(SDK)를 공 개하기도 했다. 이에 따라, 써트파티 개발자들도 시리를 이용한 어플리케이션을 개발할 수 있게 되었으며, 시리와 스마트폰용 어플리케이션을 연동하는 것도 가 능하게 되었다. 예를 들면, “시리야, 위챗으로 낸시에게 5분 늦을 것 같다고 전 해 줘”라고 말하면, 그림에 보이는 것처럼 위챗 어플을 통해 관련 메시지가 전 달되는 식이다. 이 외에도 우버 어플을 호출해서 우버 차량을 호출하거나 돈을 이체하고 피자를 주문하는 것이 가능하게 된 것이다. 아직까지는 음성/영상 전 화, 메시지, 송금 및 이체, 사진 검색, 운동, 차량 예약 등 6가지 유형의 서드파 티 앱만을 지원하지만, 시간이 지나면서 대상 서비스는 확대될 것으로 전망된다. 애플의 시리 SDK의 공개와 스마트홈 생태계 강화는 그동안 애플이 집중해 왔던 하드웨어 판매 중심의 수익 구조에서 탈피하기 위한 시작점이 될 수도 있으리라 생각된다. 4) ASUS의 ‘젠보(Zenbo)’ 지난 5월 30일 대만에서 개최된 PC부품 전시회 컴퓨텍스(Computex) 2016 행 사에서 에이수스(ASUS)는 홈서비스 로봇인 ‘젠보(Zenbo)’를 공개했다. 젠보 역시 에코나 구글 홈처럼 음성 명령을 통해 다양한 인공지능 서비스를 제공할 수 있다. 예를 들면, 가족 사진을 촬영하거나 요리 레시피를 검색해서 알려줄 수 있으며, TV나 에어컨 같은 가전제품을 제어할 수도 있다. 아이에게 동화를 읽어주고 노 년층에게는 약 먹는 시간 등 중요한 일정을 알려줄 수도 있다. 에코나 구글 홈과 다른 점이 있다면, 젠보는 자체 구동장치를 이용해서 이동할 수 있다는 것과 고해상도 카메라를 탑재하여 사물의 이미지나 사용자의 동작을 인식할 수 있다는 것이다. 이는 젠보가 단순히 목적하는 곳으로 이동하는 것을 넘어 TV와 같은 사물을 인식하여 그 앞으로 이동하거나 사용자를 졸졸 따라다 니며 서비스를 제공하는 것이 가능해짐을 의미한다. 젠보같은 이동형 홈서비스 로봇들에는 젠보 외에도 소프트뱅크의 페퍼(Pepper)나 로비스(Robis) 등이 있다. 젠보의 정식 출시일은 정해지지 않았지만, 가격은 599달러로 소프트뱅크의 페퍼 등과 같은 기존에 출시된 홈서비스 로봇에 비해 매우 저렴한 편이다. 에이수스 는 젠보의 발표와 함께 소프트웨어개발도구(SDK)를 공개하고 관련 어플리케이 션의 개발을 지원한다고 밝혔다. 단순히 컴퓨터나 스마트폰을 넘어서 스마트홈 분야로 진출하기 위한 제품을 출시했다기 보다는 로봇용 소프트웨어 생태계를 주도하겠다는 강한 의지가 엿보이는 대목이다. 그림 7. 에이수스의 홈서비스 로봇, 젠보 5) 국내의 음성인식 기반 홈IoT 서비스 디바이스 국내에서는 이동통신사를 중심으로 음성인식 기반 인공지능 서비스의 도입이 추
  • 7. 진 중에 있다. 이미 지난 6월에 AI 스마트홈 로봇인 ‘브이요(Vyo)’를 공개한 SK 텔레콤은 9월에 ‘누구(Nugu)’를 출시했다. 누구는 아마존의 에코나 구글의 구글 홈과 같은 무선 스피커 형태의 디바이스로 음악 스트리밍 서비스 및 날씨 등과 같은 생활정보 서비스를 제공할 예정이다. 또한, 스마트홈 디바이스의 제어 등에 도 활용할 예정이다. 그러나, 아직까지 음성인식 정확도가 떨어지는 편이며, 멜 론이나 SK텔레콤의 스마트홈 디바이스 등 일부 서비스와만 연동되는 한계도 보 이고 있다. KT는 인공지능보다는 홈IoT에 초점을 맞춰 가정에 특화된 ‘오토(Otto)’를 출시할 계획이다. 지난 3월 MWC 2016에서 처음 선보인 오토는 삼성전자가 개발한 홈 서비스 로봇으로 스마트홈 서비스를 위한 허브 디바이스로 활용할 예정이다. 올 해 말이나 내년 초에 출시될 예정인 오토는 사용자의 음성에 반응해 KT 홈서비 스에 연동된 다양한 IoT 단말을 제어할 예정이다. LG유플러스의 경우 MIT 출신 자들이 설립한 미국 지보社의 ‘지보(Jibo)’를 이용하여 지능형 IoT 서비스를 본격 화할 예정이었으나, 한국어 인식 및 디바이스 인증 등의 이유로 한국 출시가 불 투명한 상황이다. 포털 사업자인 네이버도 올해 말이나 내년 초에 음성인식 기반 AI 홈비서를 출 시한다고 밝혔다. 아직 어떤 유형의 기기에 접목시킬지는 정해지지 않았다고 하 지만, 스피커 형태가 될 것이라는 예상이 지배적이다. 사실, 네이버는 이미 ‘링크 (Link)’라는 음성인식 서비스와 2016년 3월에 공개한 ‘라온(Laon)’이라는 인공지 능 서비스를 보유하고 있었기에 AI 홈비서 출시는 시간 문제였다. 특히, 라온의 경우 앞뒤 문맥을 파악해 문장의 뜻을 이해할 수 있으며, ‘DAN’이라는 자체 개 발한 알고리즘을 통해 여러 과정을 거쳐 정답을 추론한다고 한다. 또한, 이미지 인식 능력을 바탕으로 대화 내용과 개별 사물의 상관관계도 파악해서 처리할 수 있다고 한다. 이 외에 AKA 인텔리전스(AKA Intelligence)라는 스타트업이 인공지능 엔진인 ‘뮤즈(Muse)’와 서비스 로봇인 ‘뮤지오(Musio)’를 개발하고 있다. 2015년 5월 크 라우드 펀딩 사이트인 인디고고(Indiegogo)를 통해 처음 선보인 뮤지오는 영어 를 기반으로 사용자와 지속적인 질문과 대화를 하며 사용자의 감정을 확인하고 그에 반응하는 소셜 로봇이다. 4. 주요 이슈 인터넷 트렌드에 대한 Mary Meeker의 자료에 따르면, 미국에서 음성 인식 서 비스를 이용하는 사용자는 2013년 30% 대에서 2015년 65%까지 상승했다고 한다. 구글 음성 검색도 2008년 대비 35배나 증가했으며, 중국의 바이두 음성인식 API의 호출 횟수도 최근 2년 사이에 4배가 증가하는 등 전체 검색에 있어서 음성 검색의 비율이 20%를 넘어서는 상황이다 [9]. 이처럼 음성인식 기반의 인공지능 서비스가 보편화 되는 과정에서 반드시 짚고 넘어가야 할 이슈들이 여러 가지 있는데, 가장 대표적인 세 가지가 바로 음성인식의 정확성과 자연어 처리, 보안 및 프라이버시, 그리고 서비스 종속성에 대한 것이다. 먼저, 음성인식의 정확성은 음성인식 기반의 인공지능 서비스 디바이스에서 가 장 기본이 되는 기능이다. Mary Meeker가 발표한 자료에 따르면, 2015년 기준 음성인식 정확도가 가장 뛰어난 서비스는 중국 바이두의 음성인식 서비스로 96% 수준이라고 한다. 미국의 디지털 비서 어플리케이션 하운드(Hound)와 애플의 시리의 정확도가 95%이며, 구글 나우는 92%의 정확도를 제공한다고 한다. 지난 2010년 주요 음성인식 서비스의 정확도가 70% 안팎에 그쳤던 것에 비하면 괄목 한 성장을 한 셈이다. 그러나, 실제로 상용 서비스를 위해서는 저소음 환경에서 99% 수준이 되어야 한다고 보고서는 밝히고 있다. 정확한 음성인식과 자연어 처리를 위해서는 음성 인식 알고리즘도 중요하지만, 음성 샘플의 개수가 충분히 확보되어야 한다. 아직까지는 음성인식 디바이스가 많지 않아서 샘플 데이터를 모으는 것이 쉽지 않았지만, 관련 디바이스들이 확산 보급되고 있기 때문에 음 성인식의 정확성 이슈는 조만간 해결될 것으로 전망된다. 자연어 처리는 음성인식을 바탕으로 문장을 통해 사용자의 의도를 파악하는 기술이다. 이 역시 음성 샘플의 개수가 중요하며, 관련 디바이스가 보급되고 이용이 보편화되면서 해결될 것으로 예상된다. 실제로 일본의 장난감 전문기업인 타카라토미(Takara Tomy)와 NTT Docomo가 공동으로 개발한 대화 로봇인 ‘오하 나스(OHaNAS, おはなす)’는 대화 맥락에 따라 동음이의어를 구분하는 것도 가 능한데, 이는 NTT Docomo가 2000년대 중반부터 수집한 충분한 음성 데이터 덕분이다. 보안 및 프라이버시 이슈와 관련해서는 사용자들의 음성이 언제 인식되고 어디에
  • 8. 저장되며 어떻게 보호되고 얼마나 오래 보관되며 누구에 의해 이용되는지가 중요 하다. 통상적으로 사용자의 음성명령은 ‘오케이 구글(OK Google)’이나 ‘헤이 시리 (Hey Siri)’, 혹은 ‘알렉사(Alexa)’ 등과 같은 말(wake word) 뒤의 따라오는 음성이 인식되고 개별 서비스 제공자의 클라우드 서버에 안전하게 저장되는 것으로 알 려지고 있다. 그러나, 기능적으로는 이러한 구동 명령이 없어도 사용자의 음성을 인식하는 것이 가능하다는 것은 이미 잘 알려진 사실이며, 이미 삼성전자의 스 마트TV가 동일한 이슈로 골치를 앓은 적도 있다. 사실, 이러한 구동 명령을 찾 아내기 위한 유일한 방법은 모든 소리를 수신하면서 이를 대기 중인 명령의 복 사본과 비교하는 것이기 때문이다. 대부분의 홈서비스 디바이스 장치의 경우, 구매와 동시에 사용자의 음성 정보의 녹취 및 저장에 동의하는 것으로 간주하고 있다. 그러나, 이는 일반적인 상식뿐만 아니라 법적인 기준에도 부합하지 않는다. 실제로 미국의 경우 1998년 제정된 어린이 온라인 개인정보 보호법(COPPA)은 온라인 서비스를 통한 13세 미만 어린이의 개인 정보 수집 또는 사용을 제한하고 있다 [10]. 이 법안은 부모의 명시적이고 입증 가능한 동의 없이 기업이 음성 녹음을 포함한 어린이의 개인 정보를 저장하는 행위를 금지하고 있다. 실제로 이는 어린이들만의 문제가 아니다. 각국의 정보기관에 의해 불법적으로 악용될 가능성도 배제할 수 없기 때문이다. 만약, 음성 정보뿐만 아니라 얼굴 인식 정보까지 함께 이용된다면 문제는 더욱 심각해질 수 있다. 설령, 사용자가 허락한 내용들만 수집되고 서비스를 위해 이용된다고 할 때, 사용자 정보를 이용할 수 있는 서비스 제공자의 범위가 어디 까지이어야 하는지에 대해서는 앞으로 깊이 있게 논의되어야 할 것이다. 참고로 애플은 사용자가 시리를 사용하면서 한 질문과 명령 등의 음성정보를 최대 2년간 저장한다. 음성인식 기반의 서비스 디바이스는 단순히 스마트 디바이스를 제어하는 것에 머물지 않을 것이다. 택시를 호출하거나 식당을 예약하는 것처럼 우리가 평소에 이용하던 서비스와도 연계될 것으로 전망되는데, 특정한 서비스의 경우 특정 사 업자에 종속될 가능성이 생긴다. 물론, 서비스 생태계를 활성화하기 위해 쇼핑이 라든지 식당 예약 등과 같은 서비스들은 모든 서비스 사업자에 개방되겠지만, 일부 서비스들은 홈서비스 디바이스 사업자와 특수 관계가 있는 기업이나 많은 광고료를 지불한 기업의 서비스와만 배타적으로 연결될 수도 있기 때문이다. 이렇게 되면, PC나 스마트폰에서 검색을 하는 경우 사용자는 검색 결과 중에서 하나를 선택할 수 있는 것과 달리 음성인식 기반의 검색 결과 가장 정확하거나 혹은 가장 많은 광고비를 낸 결과물만을 추천해줄 가능성이 크다. 5. 진화 방향 및 향후 전망 현재 소개되고 있는 음성인식 기반의 인공지능 서비스 디바이스는 음성 검색이나 가정용 스마트 가전의 제어와 같은 단편적인 스마트홈 서비스를 주된 목적으로 한다. 즉, 스마트폰으로 하던 것을 대체한다는 성격이 강하다. 그러나, 대화라는 인터페이스 방식의 편리함과 친숙함 덕분에 스마트홈 디바이스의 제어는 물론 택시를 호출하거나 식당을 예약하는 등 다양한 생활 편의 서비스로 확대 적용될 것으로 기대된다. 생활 편의 서비스 중개는 인공지능 서비스 사업자들에게 실질 적인 수익을 안겨다 줄 것이기 때문이다. 아마존의 에코가 거실의 램프나 온도 조절기를 제어하는데 그치지 않고 최근 다양한 온/오프라인 서비스를 중개하는 방향으로 서비스를 확대하고 있는 것도 같은 이유 때문일 것이다. 0% 10% 20% 30% 40% 50% 정보 서비스 오디오용 스피커 디바이스 제어 기타 (복수응답허용) 그림 8. 아마존 에코를 통해 이용하는 서비스 유형 분포 (출처 : CIRP) 이러한 음성인식 기반의 인공지능 서비스는 도입 초기에는 일반인들보다는 거동에 불편함이 있는 환자나 노인, 맹인들을 대상으로 하는 특수한 분야에서 먼저 도입될 가능성이 크며, 이내 다양한 유형의 기업 시장에서 활용될 것으로 예상 된다. 일본이나 유럽의 경우, 독거노인이나 환자들을 위한 홈서비스 로봇이나 대화형 로봇의 출시가 잇따르고 있으며, 중국의 바이두는 맹인들을 대상으로 길안내 서비스를 제공하는 이어셋 형태의 두라이트(Dulight)를 공개한 적도 있다.
  • 9. 산업 분야에서는 핸즈프리 기능이 필요한 곳에서 먼저 도입될 것으로 예상되는데, 산업용 차량뿐만 아니라 물류 창고 등과 같은 산업 현장에서 유용하게 이용될 수 있을 것이다. 아직 인공지능과는 결합되지 않았지만, 이미 코카콜라를 비롯한 다수의 기업들은 손이 자유롭지 않은 물류창고 직원들을 대상으로 음성인식 기 반의 업무 지시 서비스를 제공하고 있으며, 티센크루프(Thyssenkrupp)도 엘리베 이터 정비기사들을 대상으로 도입을 테스트하고 있다. 이러한 서비스는 음성인식뿐만 아니라 이미지 인식, 텍스트 분석 등의 기술들과 결합하여 더 다양하고 정밀한 서비스를 제공할 수 있을 것으로 기대된다. 또한, 사용자와 관련된 정보를 함께 활용하여 고객 맞춤형 서비스를 제공하거나, 과거 데이터나 사용자의 기호를 바탕으로 하는 예지(proactive) 서비스도 주목을 받을 것으로 예상된다. 음식배달, 꽃배달, 건강관리 서비스 등이 일찍부터 예지 기능 을 이용할 것으로 예상되며, 다양한 편의 서비스로 확대될 것으로 전망된다. 보안 관점에서 사용자의 목소리(聲紋)나 얼굴을 인식하는 것은 필수적인 것이 될 것이며, 그동안의 서비스 이용 패턴도 사용자를 인식하는데 활용될 수 있다. 또한, 음성인식 기반의 서비스 디바이스가 여러 명의 가족이 함께 이용하는 디 바이스라는 점에서 가족 구성원을 구분하고 구성원의 특성에 맞도록 서비스를 차등화 하는 것도 필요할 것이다. 또한, 심한 노이즈나 강한 의해 음성 명령을 제대로 인식하지 못하거나 사용자를 인식하지 못하는 경우에 대한 문제도 함께 고민되어야 할 것이다. 음성인식 기반의 인공지능 서비스를 제공하는 디바이스는 무선 스피커 형태뿐만 아니라 냉장고, 자동차, 스마트워치 등 그 종류가 다양해질 것이며, 이러한 여러 디바이스들 사이에서 서비스의 연속성과 일관성을 제공해야 할 것이다. 복수의 서비스 디바이스가 공존하는 상황에서는 서비스를 수행할 디바이스를 결정하기 위해 디바이스들 사이의 우선순위도 정해야 할 것이다. 마지막으로, 서비스 생태계를 주도하기 위한 치열한 경쟁이 관련 사업자들 사이 에서 전개될 것이다. 인터넷 산업에서와 마찬가지로 승자가 모든 것을 독식하리 라는 것을 이들은 잘 알고 있기 때문이다. 이와 관련해서는 음성인식 기반의 인공지능 서비스 플랫폼을 제공하는 사업자들뿐만 아니라, 이를 통해 다양한 부가 서비스를 제공하는 사업자들 사이에서도 해당 분야의 시장 점유율을 높이기 위한 경쟁이 일어날 것으로 예상된다. 국내 홈IoT 생태계도 단순히 디바이스를 모니터링하거나 제어하는 데서 벗어나 다양한 온라인/오프라인 서비스를 중개하는 쪽으로 바뀌어나가야 하는 이유도 바로 여기에 있다고 생각한다. 참고문헌 [1] Speech Recognition, Wikipedia. [2] Artificial Intelligence, Wikipedia. [3] Bud O’Par(김학용)의 Free WLAN 블로그, “NTT 도코모의 샤베테콘쉐루,” 2012. 8. 9, (http://freewlan.tistory.com/393) [4] 박지선, “Apple의 Siri를 이긴 NTT Docomo의 ‘Shabette Concier’,” Platum, 2012. 9. 26, (http://platum.kr/archives/1424) [5] James Risley, “Amazon Echo sales reach 3M units as consumer awareness grows, research firm says,” Geekwire, April 6, 2016. [6] Alexa Voice Service (AVS) (https://developer.amazon.com/public/solutions lexa/alexa-voice-service) [7] What is the Alexa Skills Kit? (https://developer.amazon.com/ask) [8] Google Cloud Speech API (https://cloud.google.com/speech/) [9] Mary Meeker, “Internet Trends 2016 – Code Conference,” KPCB, 2016. (http://www.kpcb.com/internet-trends) [10] Children's Online Privacy Protection Rule ("COPPA"), (https://www.ftc.gov)