NHN(www.nhncorp.com 대표 김상헌)이 지난 6일 분당 본사에서 빅데이터(Big Data)를 주제로 사내 소통을 위한 커넥트 데이 행사를 개최했습니다.

국내 정보기술(IT) 업체로는 검색포털 사업자, 그 중에서도 NHN이 빅데이터와 가장 연관이 클 텐데요. 그간 빅데이터에 대한 말을 꺼내지 않았을 뿐 NHN은 빅데이터 자체라고 해도 과언이 아닙니다.

NHN에 따르면 포털 네이버 검색창에 새롭게 입력되는 질의어(UQC, Unique Query Count)가 하루에 2000만건 이상 발생되고 있습니다. 이에 따라 네이버가 하루에 처리해야 할 문서의 양은 약 130억건, 하루에 발생하는 검색로그는 3테라바이트(TB)라고 하네요.

이 같은 엄청난 데이터를 정렬하고 이를 재조합해 가치를 창출해내기 위해서는 내부에서 치열한 문제 해결의 과정이 있었을 텐데요. 이날 이러한 내용이 발표됐습니다.

◆빅데이터, 데이터의 실체적 활용이 중요

이날 NHN의 커넥트 데이에는 이윤식 검색본부장<사진>과 함께 지난 6년전부터 검색 품질 고도화를 위해 대용량의 데이터, 최근 ‘빅데이터’라 일컫는, 정보들을 체계적으로 처리하고 분석해온 데이터정보센터의 김유원 박사, 비즈니스플랫폼개발센터의 김동욱 박사(당시 로그모델링팀장)도 발표자로 나섰습니다.

발표자로 나선 3인은 빅데이터를 목적 아닌 수단으로 봤습니다. 데이터 자체로는 큰 의미가 없고 이를 실체적으로 활용하는 것이 중요하다는 말인데요.

이윤식 검색본부장은 “우리의 빅데이터 시스템, 즉 로그 시스템이 성공적으로 안착할 수 있었던 이유는 명확한 문제 인식과 이를 해결하기 위한 구체적 목표를 향한 노력이 뒷받침되었기 때문”이라며 “이러한 데이터 활용에 대한 성공 경험을 기반으로, 앞으로는 데이터로부터 새로운 가치를 창출해 나갈 계획”이라고 밝혔습니다.

◆NHN, 2006년부터 데이터에 대한 본격적 고민 시작돼

‘빅데이터’라는 말이 없던 2006년, 그 당시 NHN은 데이터에 대한 본격적인 고민을 시작합니다. 데이터 활용에 대한 내부의 요구가 많아졌습니다. 특정한 칼럼(데이터)의 값들을 하나로 묶는 그룹바이(Group by) 작업이 내부에서 쏟아졌는데요. 데이터 정렬과 재조합의 필요성이 제기된 것이죠.

NHN은 2006년 이전까지 그룹바이에 강점을 보인 상용솔루션을 쓰기도 했으나 당시 기술력으로는 포털 네이버의 데이터를 처리하기엔 역부족이었다고 이 본부장은 설명했습니다. 데이터 로딩속도가 문제였죠. 이 부분의 개선을 위해 NHN은 ‘네뷸라(Nebula)’ 시스템을 개발합니다.

참고로 NHN에서 하둡(hadoop)을 전담하는 조직이 네뷸라였는데요. 하둡은 대용량 데이터 처리를 위해 대규모 분산처리를 지원하는 프레임워크입니다. 당시 NHN은 데이터 가공 없이 분산시스템에 넣고 풀스캔하는 방식으로 그룹바이를 처리했습니다.

그러자 데이터의 단절이 문제가 됐고 데이터의 연속성 확보를 위해 보완의 필요성이 제기됐죠. 이에 NHN은 한게임을 테스트베드로 삼아 쿠바(Cuba)라는 시스템을 개발했고 이용자 요구에 따른 실시간의 순차적인 정보(시퀀스) 분석을 위해 메조(Mezzo)라는 로그시스템 개발에까지 이르게 됐습니다.

◆2008년 데이터 활용에 눈뜨다 “가치를 만들어라”

현재 메조라는 로그시스템에는 하루 3테라바이트(TB)의 로그가 쌓입니다. 2008년 당시엔 수백 기가바이트(GB) 수준이었는데요. 이 본부장은 “그때부터 데이터를 모아서 가치를 만들어나가기 시작했다”고 말했습니다.

이러한 고민에 대한 해결이 대용량 데이터 분석기술인 파스(FAS, Feedback Analysis System)로 나타납니다. 2010년 검색 품질을 개선하기 위해 적용한 기술입니다.

파스는 게임이론에서 시작됩니다. ‘두 명의 이용자가 경쟁하면 누가 더 실력이 뛰어날까’를 판별할 수 있게 수학적으로 풀어놓은 모델인데요. 간단한 모델이지만 서비스에 적용해 한번 돌리려면 3~4일이 걸렸다고 하는데요. 이후 1년반에 걸쳐 실제 서비스에 적용한 가능한 수준으로 개선을 거칩니다. 현재 NHN은 네이버 검색결과에 FAS를 적용, 랭킹 요소를 부여하고 있습니다.

네이버가 빅데이터를 분석해 실제 서비스에 적용한 사례로는 뮤직 서비스의 음악 추천 기능인 라디오 서비스, 자동완성·연관검색어·실시간급상승검색어 등의 검색어 추천, 사용자그룹별 검색어 등이 있습니다.

◆빅데이터 가진 NHN, 빅브라더 될까

빅브라더(Big Brother)는 조지 오웰의 소설에 나오는 감시자입니다. 정보 독점을 기반으로 사회를 통제하고 관리하는 권력을 뜻하는 말인데요. 최근 구글이나 페이스북 등의 개인정보 활용 때문에 빅브라더 논란이 제기되는 가운데 사내에서도 이와 관련된 질문이 나왔습니다.

이날 질문자는 “페이스북은 개인정보를 활용해 마케팅에 쓰고 연락이 10년 동안 안된 친구들도 막 알려주는데 개인정보침해 때문에 두려운 점도 있다. 우리가 서비스 제공하는 것 중에 사용자가 누군지 알고 활용하는 사례가 있는지 궁금하다”고 말했는데요.

이에 대해 김유원 데이터정보센터 박사는 “네이버는 개인을 식별할 수 있는 정보를 사용하지 않는다”며 “유사 서비스로 사용자그룹별 인기검색어가 있을 수 있는데 기본적으로 쿠키정보를 활용하기 때문에 개인정보는 침해하지 않는다”고 답했습니다.

이어 “개인정보에 대해서는 엄격한 기준을 가지고 있고 그런 서비스 기획은 절대 하지 않는다”고 김 박사는 강조했는데요.

이처럼 NHN의 입장은 단호합니다. 하지만 이 부분은 NHN의 입장이 어떻든지 사용자의 입장에서는 불편을 야기할 수도 있는 문제입니다. 이를테면 사용자의 쿠키정보(웹페이지 접속 통계정보)가 활용되는 것에 불만을 가지는 고객도 있기 때문이죠.

김동욱 비즈니스플랫폼개발센터 박사는 빅데이터를 활용한 광고 타깃팅 상품 여부에 대한 질문에서 “고객들은 내가 뭐를 좋아하지 않을까 (추천하는) 그것마저도 싫어한다”며 “내가 한 일을 너는(NHN) 어떻게 아는 지도 부담스러워한다”고 말했습니다.

김 박사는 또 “그 부담을 넘어서는 밸류(가치)를 제공하고 나를 알아보는 게 별거 아니었어하는 사회적 인식이 확산되면 (광고 타깃팅 상품은) 그때 간다”며 “지금은 요원한 일”이라고 덧붙였습니다.

댓글 쓰기

저작권자 © 딜라이트닷넷 무단전재 및 재배포 금지