딜라이트닷넷

AI비서는 아직 우렁각시가 될 수 없다... 음성 '인증'과 '인식'의 차이

통신방송 17.08.18 16:08

중국 전국시대 말기인 BC 2세기, 당시 제나라의 정치가인 전문(田文)은 그 뛰어남을 인정받아 경쟁국인 진나라 소왕에 의해 초빙돼 재상의 자리에 올랐다. 

바로 '맹상군'이라고 불리는 그 사람이다. 

하지만 맹상군은 이를 시기한 진나라내 반대파들의 모함을 받아 위기에 처했다. 결국 맹상군은 야음을 틈타 목숨을 건 탈출을 감행하는데, 국경선인 함곡관에서 막혔다. 아직 통금 시간이 해제되지 않아 성문을 열리지 않았기 때문이다. 

이 때 맹상군이 대접했던 3천 식객중 닭울음 소리에 재주가 있던 식객이 역할을 한다.

통금해제 신호인 닭울음 소리를 내 함곡관을 열리게 했고, 무사히 탈출에 성공했다.

계명구도(鷄鳴狗盜)라는 말이 나오게 된 에피소드중 일부다. 

원래 이 고사는 아무리 미천한 재주라 하더라도 다 그 쓰임새가 있음을 강조할 때 인용된다.  

 

다만 고사의 본질에서 벗어나, 강조하고 싶은 것은 인증 및 인식 수단으로서의 '목소리'(음성)가 가진 뛰어난 편리성이다. 그리고 그것이 가지는 한계도 동시에 짚어 보고자 한다.

최근 국내에선 AI(인공지능) 스피커가 쏟아지고 있다. 'AI 비서'로 불린다. 

거실에 설치된 AI 비서에게 키워드를 얘기하면 즉각 원하는 대답을 알려준다.  

"오늘 날씨는?"  

"오늘 주가는?" 

그리고 최근에는 금융분야도 본격적으로 적용되기 시작했다. 

"오늘 통장 잔고는?"

'AI 비서'는 마치 사람처럼 묻는 말에 빠르게 응답한다. 

그런데 사람들이 여기서 약간 착각을 할 수 있다. 

자칫 'AI 비서'가 정말로 내말에만 복종하는 '전용 비서'로 생각할 수 있다는 점이다. 

그러나 AI 비서는 비록 내가 돈을 주고 구매했더라도 나를 알아보지는 못한다. 

다른 사람이 “오늘 날씨는?”이라고 질문해도 역시 동일하게 대답한다. 

결론적으로 현재 시중에 출시되고 있는 ‘AI 비서’는 나만을 위한 우렁 각시가 아니다.

이는 기본적으로 AI 비서가 아직은 '음성 인증'이 아니라 '음성 인식'으로만 작동하기 때문이다. 


'음성 인증'과 '음성 인식'을 일반인들은 혼동하는데, 이는 개념 자체가 전혀 다른 기술이다. 

기술적으로 보면, 이 지구상에 존재하는 어떠한 음성 인식 기술도 전혀 '주인'을 알아보지 못한다. 

일단 '음성 인식'기술은 주인을 알아보기 위해 만든 기술이 아니기 때문이다. 

'음성 인식'기술은 단지 음향 신호를 단어나 문장으로 전환시키는 기술이다. 화자가 누구인지는 구분하지 않는다.

굳이 따지자면, 맹상군의 식객이 낸 닭울음 소리는 사람과 닭을 구분하기위한 ‘음성 인증’이 아니라 단지 음성을 문장(명령어)로 인식해 문을 열게한 ‘음성 인식’ 기술이다. 

최근 TV 광고에선 마치 사용자와 음성 인식기반의 AI 비서가 같이 동거하는 애틋한 관계로 설정된다. 

이는 과장된 것이다. AI 비서는 그냥 TV 리모콘이나 선풍기처럼 누가 작동해도 움직이는 또 다른 형태의 가전 제품이다.  

따라서 정말로 ‘주인’과 ‘비서’의 관계를 설정하기를 원한다면 여기에는 본인임을 증명하는 '음성 인증'(Voice Identification, ID)기술이 적용돼야 한다. 

그래야만 AI비서가 내가 묻는 말에만 반응하게되고, 나만을 위한 다양한 고차원적인 서비스가 가능해진다. 

여기에 '감정 인식' 기술까지 결합된다면, "주인님, 오늘은 무엇때문에 기분이 별로 인가요?"라는 AI 비서의 진정성 있는(?) 위로를 듣을 수 있다. 

현재 국내 금융권에서 본인 확인 수단으로 다양한 생체인식 기술이 적용되고 있지만 ‘음성 인증’이 확산되지 못하고 있다. 음성 인증의 경우, '오인식률'이 기준치에 아직도 많이 미달하기 때문이다.

금융권에서는 “음성의 인식율, 즉 정확도가 96% 미만이기 때문에 본인 생체인증 수단으로 적용하기 곤란하다”고 밝히고 있다. 

따라서 현재 국내 금융권에서 제시되고 있는 음성 서비스는 모두 '음성 인증'이 아닌  '음성 인식'기반이다. 

만약 언젠가 100%에 가까운 '음성 인증'이 구현된다면, 기존의 음성 인식 기술과 결합해  지금보다 훨씬 편하게 디지털금융서비스가 가능하게 될 것으로 예상된다. 이를 테면, ATM에 앞에 서서 손 까딱하지 않고 "10만원 출금, 5만원 2장으로" 이렇게 간단히 명령만 내리는 것으로 가능해진다.  

 

인터넷뱅킹이나 모바일뱅킹도 더 쉬워진다. 스마트폰에다 대고 "엄마에게 30만원 송금" 이라고 말만하면 된다. 음성인증이기 때문에 별도로 비밀번호를 찍거나 지문을 정확하게 갖다대야하는 번거로움은 없다.

현재 금융권에서는 컨텍센터(스마트센터 또는 콜센터)에 음성 인식용 AI 텔러, 즉 로봇을 설치하고 있다. 하지만 아직까지는 음성 인식만 가능하기 때문에 서비스의 역할은 상품안내 등 제한적이다. 

만약 고객의 음성 인증이 된다면 고객의 금융 정보를 주고받으면 깊이있는 금융 상담이 가능해질 수 있다. 그러나 한편으론 음성 인증의 기술적인 난이도의 문제를 떠나, 향후 기술적으로 100%의 완성된 음성 인증을 이용해 업무를 처리하게되더라도 실제 사용은 다른 생체 인증에 비해 제한적일 수 있다는 점도 생각해 볼 필요가 있다. 

 

예를 들어, 타인에게 밝히기 어려운 건강 정보나 금융 정보를 AI 비서가 타인이 있는 곳에서 음성으로 말해 버리면 곤란하다.

최근 KEB하나은행은 SK텔레콤과 제휴해, 인공지능 기반의 음성인식 서비스인‘누구’(NUGU)를 통한 금융 서비스를 출시했다. 

고객이 “오늘 미국 환율 얼마야?” 같이 음성을 통해 질문을 던지면, 스피커를 통해 환율정보를 들을 수 있다. 만약 사용자가 특정한 옵션을 걸어놓지 않았다면, 전혀 다른 사람이 동일한 질문을 해도 AI 비서는 역시 신속하게 답변을 내놓는다. 

또한 고객의 스마트폰에 설치된 ‘누구’ 앱을 통해서도 KEB하나은행 앱을 연동시키고 본인 계좌를 등록한 뒤, “내 계좌 잔액 알려줘”, “어제 거래내역 알려줘” 같이 음성으로 질문하면 음성을 통해 본인의 금융거래 정보를 받을 수 있다.

프라이버시 문제를 고려해, KEB하나은행은 이러한 민감한 질문은 음성으로 듣지 않고 SMS나 카톡 문자 등으로 본인만 볼 수 있는 채널로 전달되도록 사용자가 옵션을 설정할 수 있도록 했다. 

넓게 본다면, AI 비서 서비스는 아직 국내에선 초보적인 단계다. 특히 ‘음성 인증’이 아니라 ‘음성 인식’에 기반한 금융서비스에 머물게 된다면 서비스의 확장성에서 한계를 직면할 수 밖에 없다. 

물론 그 한계를 쉽게 극복할 것인지 아니면 의외로 시간이 오래 걸릴 것인지 알 수 없다. 다만, 기계가 인간의 역할을 대체해 가는 과정이 단순히 속도나 효율성에 의해서만 결정되는 것은 바람직스러워 보이지는 않는다.

 

<박기록 기자>rock@ddaily.co.kr