딜라이트닷넷

언어의 창조성에 도전하는 구글

10.03.10 18:06
일반적으로 자의성, 창조성, 사회성을 언어의 3대 특징이라고 합니다. 자의성이란, 언어기호와 의미간에는 상관관계 없다는 것이고, 사회성이란 언어가 사회적 약속이라는 것입니다. 창조성은 언어가 일정한 기호를 가지고 창조적으로 조합된다는 것입니다. 사람이 말을 하는 것은 문장을 외워서 하는 것이 아니라 그때그때 단어를 조합해 만든다는 것입니다. 인간이 처음 듣는 문장을 이해할 수 있는 것도 창조성을 알고 있기 때문입니다.그런데 이 같은 언어의 본질적 특성에 도전장을 던진 기업이 있습니다. 바로 ‘구글’입니다. 오늘은 구글의 주요 도전 과제 중 하나인 ‘기계번역(컴퓨터 자동 번역)’에 대한 이야기를 하겠습니다.기계번역은 특정 언어로 된 문장이나 문서를 컴퓨터가 다른 언어로 바꿔주는 것을 말합니다. 기계번역이 100% 완벽하다면 영어, 중국어, 일본어 문서를 한국어로 순식간에 번역해 읽을 수 있습니다. 전통적인 기계번역은 ‘규칙 기반’ 접근법이었습니다. 규칙 기반이란 컴퓨터가 문장을 분석하고, 이해할 수 있도록 문법 규칙을 만들어 이를 기반해  번역을 하는 것입니다. 예를 들어 하나의 문장은 명사구와 동사구로 구성돼 있다는 식의 규칙을 정해 놓는 것입니다.  (S ← NP VP)일반적으로 대부분의 언어학자들과 일부 전산학자들이 이 같은 방법을 추구했습니다. 이들은 인간이 언어를 이해하는 규칙을 기술할 수 있다면, 기계번역은 가능하다고 봤습니다.하지만 불행하게도 언어학자들은 아직 인간이 언어를 이해하는 완벽한 규칙을 만들지 못했습니다. 우리가 외국어를 배울 때 ‘예외’라는 이름으로 외워야 하는 것들은 언어학자들이 규칙을 발견하지 못했다는 것과 다름이 아닙니다.이 때문에 규칙 기반 접근법은 성공을 거두지 못했습니다. 이 방법을 기반으로 수 많은 기업과 학자들이 도전했지만, 쓸 만한 기계번역 소프트웨어는 등장하지 못했습니다.규칙 기반 접근법에 한계를 느끼고 1990년대 중반부대 일부 학자들 사이에서는 ‘통계적 접근법’을 사용하기 시작합니다. 통계적 접근법이란 언어학적 접근을 배제하고, 수학적으로 접근하는 것입니다.이 방법은 어떻게 번역돼야 한다는 규칙은 없고, 어떻게 번역됐는지 사례를 찾아 통계를 냅니다.예를 들어 ‘밤을 먹었다’라는 문장을 가정해 보시죠.규칙기반 접근법은 ‘먹다’ 류의 동사의 목적어는 음식이 와야 한다는 규칙을 만들어 ‘밤’이 ‘night’가 아닌 ‘chestnut’으로 번역되도록 합니다. 하지만 '나이 먹으니 주름살이 늘었다', '한 방 먹었네'. '엄마 나 챔피온 먹었어' 등등 무수히 다른 사례가 등장하기 마련입니다. 통계적 접근법은 신문, 잡지, 소설, 논문 등등 무수한 자료 속에서 ‘밤을 먹었다’는 문장이 어떻게 번역돼 있는지 통계를 내 가능성이 높은 쪽으로 번역합니다.통계적 접근법은 사실 언어의 창조성을 부정하는 방법입니다. 통계적 접근법은 지금 번역하려는 이 문장이 어딘가 다른 곳에서 비슷하게 쓰인 사례가 있다는 것을 전제로 합니다. 하지만 언어의 창조성에 따르면, 인간의 언어는 기호를 가지고 그 때 그 때 조합해 창조적으로 만들어 내는 것입니다. 때문에 언어학자들은 통계적 접근법을 인정하려 들지 않는 경우가 많았습니다.하지만 구글이 등장한 이후 양상이 달라지고 있습니다. 구글은 통계적 접근법을 사용하는 대표적인 회사입니다. 사실 통계적 접근법을 제대로 쓸 수 있는 회사도 구글 밖에 없습니다. 통계적 접근법을 위한 가장 필수적인 요소는 ▲통계자료가 될 번역 데이터(코퍼스) ▲이를 처리할 컴퓨팅 파워이기 때문입니다.이를 보유한 회사는 구글 밖에 없습니다. 구글이 크롤링 능력과 컴퓨팅 파워 면에서 세계 최고라는 점을 부정할 사람은 많지 않을 것입니다. 이 때문에 구글 번역기가 세계 최고의 품질을 보유하게 될 것이라는 데는 이견이 없는 편입니다.그렇다면 구글이 쓸만한 영어-한국어 자동 번역기도 만들어 줄까요?개인적으로는 이에 대해 좀 부정적인 시각을 가지고 있습니다. 왜냐하면 국내에는 통계자료가 될 번역 데이터(코퍼스)가 많지 않기 때문이다. 구글의 통계적 접근법이 통하려면, 한국어로 된 문서와 이를 인간이 번역한 영어 문서가 무수히 많이 있어야 합니다. 그래야 컴퓨터가 통계를 내고 학습을 할 수 있습니다.그러나 한국어로 된 무수히 많은 문서 중에 영어로 번역된 것은 많지 않습니다.구글이 아무리 우수한 번역(통계) 알고리즘을 가지고 있다고 해도 기본 데이터가 없으면 좋은 기계번역기는 탄생하기 어렵습니다. 현재 구글 번역기에서 ‘한글-영어’의 번역 품질이 엉망인 이유도 여기에 있습니다.결국 자동번역의 품질을 높이기 위해서는 인간이 번역한 문서가 더 많아야 한다는 얘기입니다. 좀 아이러니한 일입니다.덧) 어제 뉴욕타임즈에 흥미로운 이야기가 하나 실렸습니다. 구글이 번역기를 만들기 시작한 것이 창업자 세르게이 브린이 한국어로 된 이메일을 받은 이후 랍니다. 어느 한국인으로부터 받은 이메일을 자동번역기로 돌렸더니, 전혀 알 수 없는 말이 나와서 번역기를 직접 개발키로 했다고 합니다.세르게이가 자동번역기를 돌려서 얻은 영어 문장은 The sliced raw fish shoes it wishes. Google  green onion thing!”이랍니다. 한국어 원문은 무엇이었을까요. 아마 "회신((The sliced raw fish shoes) 바랍니다(it wishes), 구글 파이팅(green onion thing)" 정도가 아니었을까요?