딜라이트닷넷

검색

구글 순간검색, 검색이 빨라졌다? 그럼, 사용자는 편해졌을까?

이민형 기자의 인터넷 일상다반사 10.09.16 09:40

얼마전 구글은 순간검색이라는 새로운 검색기술을 발표했습니다.순간검색은 정식발표전에 구글시스템블로그에서 ‘라이브 서치’라는 이름으로 지난달 말 소개됐습니다. (구글, ‘Enter’키를 왕따시키다)이미 개발이 완료된 상태였기에 이름만 ‘Instant Search(순간검색)’ 새롭게 변경돼 나온 것입니다.구글 순간검색이 뭔지 잘 모르시는 분들을 위해 간략히 소개를 하자면, 검색창에 형태소 하나하나를 칠때마다 검색이 되고, 사용자가 의도하는 키워드를 미리 찾아 서제스트로 제공하는 식입니다.예를 들어 ‘추’ 만 입력하면 ‘추석’에 관련된 검색결과가 노출되게 되는것이죠.직접 경험해보시거나 동영상을 보시면 이해가 빠를 것 같네요. 구글의 순간검색, 사용해보시 어떻습니까? 신기하죠?우선 원리는 이렇습니다.사용자들이 자주 검색하는 쿼리를 분석해 미리 검색 서제스트를 완성시키고 에이젝스(AJAX)라는 기술로 검색 콜이 나오면 바로 리스폰(Response) 쿼리를 뱉어주는 기능을 구현했습니다. 쿼리를 미리분석한다는 말은 최근 사용자들이 검색 키워드에 있어 첫 형태소를 입력후에 나오는 형태소를 랭킹콜렉션을 통해 미리 구성해둔다는 것으로 해석하면 될 것입니다. 에이젝스라는 기능은 지난 2000년대 후반부터 리치한 웹사이트에는 꼭 채용되는 기술 중 하나로 꼽힙니다. 그만큼 뛰어난 능력을 가지고 있기 때문이죠. 구글은 이 에이젝스 기능과 기존의 서제스트, 그리고 지금까지 쌓아온 검색쿼리를 결합시켜 순간검색을 만든 거죠.근데 과연 이 순간검색이 사용자에게 얼마나 더 빠르고, 향상된 검색경험을 제공 할지는 다시한번 생각해봐야 할 것 같습니다.제일 먼저 걱정되는 부분은 특정 키워드로의 유입을 방조해 특수한 검색어는 제대로 적용되지 않다는 점입니다. 정확한 기술은 구글측에서도 공개하지 않았으나, 각 검색키워드의 쿼리수를 랭킹으로 메겨 그 순위별로 노출하고 있는 것으로 보입니다. 예를 들어 추노가 실화인지가 궁금해서 ‘추노’ 까지 검색어를 입력하면 ‘추노 문서’에 관한 내용이 제일 먼저 나오게 됩니다.아마 드라마가 끝난 이후 가장 화제가 됐던 것이 ‘추노 문서’이기 때문으로 분석됩니다. 결국 ‘추노 실화’까지 치고서야 원래 제가 의도했던 결과가 나왔습니다.기존 검색과 시간차이는 거의 없었습니다. 오히려 순간순간 뜨는 검색결과가 부담스러워 움찔할 정도였으니까요.물론 사람들이 흔히 찾는 키워드는 순식간에 검색됐습니다. 많은 사용자가 '쿼리'를 보냈으니 학습하는 검색 엔진이라면 당연하겠죠.그러나 랭킹에 의한 검색결과 노출은 다른 문제를 야기시키기도 합니다. 99% 사용자들의 의견과 취향을 맞춰 서비스가 제공되다보니 검색결과가 획일화되고, 특수한 검색어는 노출이 안되는 경우가 발생할 수 있기 때문이죠. 음모론을 펼친다면 충분히 그럴듯한 근거를 댈 수 있을정도로 강력한 기능입니다. 사실 이 문제는 검색 서제스트가 등장했을 때부터 나온 문제였지만 이번 순간검색으로 그 문제가 더 심각해질 수도 있다고 생각되는거죠.아무튼 이 부분은 개개인차와 기술상의 문제, 구글의 운영상의 문제니 각설하겠습니다. 그렇다면 과연 구글의 순간검색이 국내에서도 통할까요? ‘사용자경험’에 있어서 구글 순간검색이 정말 국내 사용자들에게도 유효한지가 궁금해 국내 네이버, 다음, 네이트, 야후 각사의 검색전략 담당자들에게 ‘구글 순간검색, 어떻게 보고계신가요?’ 라는 질문을 던져보았습니다.참 아이러니하게도 4개 포털업체 모두 ‘새로운 검색기술이긴 하지만 사용자에게 얼마나 어필할지는 의문’이라는 의견을 내놓았습니다.네이버 관계자는 “순간검색 기술은 사실 어려운 것은 아니다. 먼저 도입한 구글의 의도는 높이 사지만 그것이 사용자 경험에 얼마나 도움이 될지에 대해선 부정적인 관점이다. 왜냐하면 지금까지 검색과는 너무나 다르기 때문에 부담을 느낄 사용자가 많을 것이라 예상되기 때문”라고 전했습니다.다음과 네이트의 관계자 역시 ‘신기하지만 통할까?’라는 의견이었습니다. 아무리 에이젝스를 경량화, 최적화 했더라도 인터넷속도가 느리거나 PC사양이 턱없이 낮다면 오히려 독이 되거나 작동하지 않는 다는 말도 전하더군요.야후코리아 관계자는 “구글에서 선보인 순간검색에 적용된 기술은 현재 각 포털사에서 서비스 중인 자동완성기능과 비교해 본다면 실제로 검색 결과가 바뀌는, 즉 새로운 서비스의 시도로 볼 수 있지만 순간검색이 모든 사용자와 모든 검색키워드에 다 장점으로 받아들여지지는 않을것으로 생각되며 알파벳 한두개만 넣어도 노출되는 검색 결과는 다소 부담스럽게 느껴질 수도 있을 것 같다”고 전했습니다.국내 네티즌들에게 찬사를 받고 있는 순간검색, 비즈니스모델이나 진정한 사용자경험 향상에는 도움이 안되는 것일까요?구글의 혁신이 어떠한 평가를 받게 될지 당분간은 지켜봐야할 것 같습니다. 댓글 쓰기

네이트에서 ‘내 여자친구는 구미호’를 검색하다

이민형 기자의 인터넷 일상다반사 10.08.19 13:59

요즘 최고의 인기를 구사하고 있는 드라마 ‘내 여자친구는 구미호’를 보고계신가요!? 저는 신민아의 팬이라 퇴근이후 헬스장에서 SBS드라마 채널에서 몰아서 보고 있는데요, 너무 재밌다보니 드라마 캐스팅, 제작비화가 너무 궁금하더군요.   그래서 집에 들어와 네이트에서 ‘내 여자친구는 구미호’라고 검색을 하니 최상단에는 드라마의 기본 방송정보가 나왔습니다.   그 하단에는 뉴스, 블로그 등이 아닌 시맨틱 검색이 붙어있었습니다. ‘내 여자친구는 구미호’에 관련된 모든 정보를 사용자의 의도를 파악해 미리 배치해 놓은 것입니다.   네이트의 시맨틱 검색은 검색어별로 가능한 속성을 정의하고 그것을 찾아내서 DB화 시켜놓은 것입니다. 사용자의 검색의도를 어느정도 파악하고 있으니 다양한 영역의 정보를 미리 수집해 뿌려준다는 것입니다.   제가 찾아본 ‘내 여자친구는 구미호’의 시맨틱 검색결과는 상당히 만족스럽습니다. 공식사이트에서부터 최근소식, 화제, OST, 시청률 등 사용자가 원하는 대부분의 정보를 영역별로 배치해 보여주고 있습니다.   또한 검색어에 따라 자동 제시되는 인물, 영화, 음악, 책 등의 카테고리에서 분야별로 정제된 세부 정보도 바로 확인할 수 있다는 점도 큰 장점이죠.   재차 검색할 필요가 없으니까 사용자가 편하게 사용하게 될 것이고, 이는 점유율의 상승으로 이어질 것이라는게 SK컴즈의 계산이겠죠.   SK컴즈는 이러한 시맨틱검색으로 포털점유율이 10% 수준으로 상승했다고 주장하고 있습니다.   실제로 네이트는 지난해 시맨틱검색이후 꾸준히 점유율이 상승하고 있습니다.     여기에 힘입어 SK컴즈는 오는 23일, 시맨틱 검색을 통합검색 영역으로 확대하겠다고 밝혔습니다.   시맨틱에 네이트검색의 전부를 걸겠다는 것으로 보이네요.   SK컴즈가 시맨틱검색을 전면배치하는 의도는 무엇일까요?   가장 첫 번째 이유는 앞서 말씀드린대로 네이트는 시맨틱으로 재미(?)를 봤기 때문입니다. 지난해 이맘때쯤 5% 남짓한 점유율이 시맨틱검색을 도입하면서 올해 초에는 10%를 넘어서는 등 상승세를 타고 있기 때문에 이 분위기를 그대로 이어갈려고 하기 위한 ‘시맨틱검색의 메이저 업데이트’라고 생각됩니다.   두 번째 이유는 기존 선두포털들과의 차별화를 생각할 수 있습니다.   현재 국내 포털시장은 ‘통합검색’의 네이버가 60%이상을 차지하며 독주하고 있습니다. 아직 네이트는 10%남짓한 점유율을 보이고 있죠.   시맨틱검색을 탑재하기전까지 네이트는 선두업체들의 검색방식을 차용하고 있었습니다. 별다른 특징도 없었구요.   그러나 시맨틱검색을 탑재하고 부터는 ‘다른포털과 차별화’된다는 점을 강조하고 있습니다. 이는 즉 똑같은 서비스로는 이미 벌어진 간격을 좁힐 수 없다는 것을 SK컴즈쪽도 알고 있기 때문이죠.   최근 다음이 도입한 통합웹검색과 비슷한 맥락으로 보면 될 것 같습니다.   시맨틱검색을 전면배치는 기존 시맨틱검색의 약점의 극복과 아직은 익숙하지 않은 사용자경험의 향상이 성공의 중요요소로 작용하게 될 것입니다.   현재 네이트 검색창에 ‘카라’라는 키워드를 입력하면 아이돌 가수인 카라와 만화책 작가인 ‘카라’의 시맨틱검색이 동시에 노출됩니다. 이는 오히려 사용자들에게 혼란을 줄 수 있습니다.     또 다른 문제는 기존 통합검색을 사용하는 사람들이 전체 사용자의 약 80%를 차지한다는 것입니다.   현재 네이트는 시맨틱검색을 일부만 적용해뒀습니다. 기존 네이트 통합검색은 네이버, 다음과 별반 다른게 없죠.   그러나 네이트 전체에 시맨틱검색이 적용된다면 분명 적응하지 못하는 사용자는 네이트를 기피하게 될 수 있다는 것입니다.     위에 보시는 이미지처럼 시맨틱검색을 통합검색처럼 UI를 변경하게 됩니다. 지금의 네이트 시맨틱검색은 키워드와 관련된 카테고리별 주제 분류와 예측답변이 박스 형태로 보여지고 있는데, 개편이후에는 이 부분이 통합검색내부로 들어가기 때문에 전체영역으로 확대되게 됩니다.   축적된 사용자경험이란 흔들기 힘듭니다. 실제로 시맨틱검색에 적응하지 못하고 네이트를 떠난 사용자들도 있습니다.   그러나 SK컴즈가 기존 통합검색이 주는 사용자경험을 그대로 제공함과 동시에 더 나은 것을 보여준다면 이번에 전면배치되는 네이트 시맨틱검색은 많은이들의 사랑을 받을 수 있으리라 생각되네요. 댓글 쓰기

기자별 기사 검색 시대, 기자님들 준비됐나요?

한주엽의 Consumer&Prosumer 10.03.12 12:24

네이버가 정확도순에 따라 결과를 노출하는 식으로 뉴스 검색 서비스를 개편한 데 이어 기자별 검색 기능도 추가했습니다. 검색 영역을 ‘기자명’으로 맞춰놓고 기자 이름을 입력하면 해당 기자가 쓴 기사를 쭉 볼 수 있게 된 것입니다(관련기사 참조).네이버는 “유명인 검색 시 동명 기자의 기사가 함께 검색되는 사례를 개선하기 위해 이번 개편을 단행했다”고 설명했습니다. 이유가 뭐건 기자명으로 기사를 검색하는 기능이 추가됐기 때문에 독자들은 특정 기자가 어떤 분야에 어느 정도의 관심과 지식수준을 가졌는지 쉽게 가늠할 수 있게 됐습니다. 일부 단체나 업체의 이익만을 대변하는지, 어떤 성향의 기사를 쓰는지도 알 수 있겠죠. 네이버는 대단히 단편적인 기자별 검색 기능을 제공하지만 적잖은 의미가 있는 것입니다. 다음의 경우 오래 전부터 기자별 검색 기능을 제공해왔습니다. 네이버보다 더 구체적으로 기자별 기사 검색 결과를 보여줍니다. 예를 들어 ‘기자:한주엽’으로 검색하면 해당 기자의 기사를 보여주고, 사안이 같은 기사는 묶어서 보여주는 기능을 가지고 있습니다. 일관되지 못한 메시지를 던져줄 경우 쉽게 확인이 가능한 구조입니다.(‘매체명:키워드’를 입력해보면 재밌습니다. 해당 키워드에 대한 특정 매체의 성향을 알 수 있습니다.)포털 사이트에서 뉴스를 소비하는 시대, 전문기자 타이틀을 달고 있다면 본인 이름이 부끄럽지 않도록 기사 송고 직전 여러 번 심사숙고할 필요가 있어 보입니다. 가치 있는 소식을 심도 깊고 정확하게 전달해야 하는 것이 바로 전문기자의 역할이기 때문입니다.사실을 왜곡하거나 잘못된 정보를 전달했을 경우 검색해보면 다 나오게 됐습니다. 더 이상 매체를 등에 업은 상태에서 기자 개인이 피하고 숨을 곳이 없습니다. 한편으론 블로거들과 마찬가지로 기자들 개개인의 브랜딩이 중요해지는 시대가 온 것 같습니다. 취재 없이 설렁설렁 쓰거나 엉성한 기사 하나 둘씩 올리면서 면피하는 기자들은 살아남기가 힘들게 됐습니다. 반면, 꾸준하게 질 높은 콘텐츠를 생산하는 기자는 스타 기자로 거듭날 수 있을 것이라는 기대도 있습니다. 명승은 태터앤미디어 대표는 “기자들 생각이 깨어 있으면 자기 색깔을 띠고 브랜딩에 집중할 것이라고 생각한다”며 “본인만의 색깔, 본인만의 스토리텔링 기법을 만드는 것이 중요하다”고 말했습니다.삼성전자에, 구글에, 애플에 정통한 기자로 알려지면 어떤 사안이 생겼을 때 해당 기자 이름으로 검색해보는 독자들도 생길 것이라는 얘기입니다. 예컨대 연예인 뒷모습만 찍는 식으로 자신만의 기사 스토리텔링 기법을 개발해야 한다는 것입니다. 긍정적이든 부정적이든, 의식을 했건 하지 않았건 네이버를 비롯한 포털 사이트가 국내 미디어 환경을 크게 바꿔놓고 있습니다. 댓글 쓰기

네이트 직원들, 네이버 검색 차단 사건

심재석의 소프트웨어 & 이노베이션 09.11.23 11:33

지난 주 목요일 다소 흥미로운 일이 벌어졌습니다. 저는 당시 서울 충정로에 있는 SK커뮤니케이션즈(SK컴즈)에 있었는데, 갑자기 네이버 검색이 되질 않았습니다. 네이버 검색창에 검색어를 넣고 엔터를 치면 아래와 같은 화면이 나타났습니다. 저는 이 같은 화면을 처음 봤습니다. 안내문구에 따르면 악성코드 검사를 하거나 네트워크 담당자에게 문의하랍니다. 악성코드와 검색이 어떤 관계가 있는 것일까요? 웹 브라우저가 악성코드 배포가 의심되는 사이트를 차단하는 경우는 봤어도, PC에 악성코드가 있을 우려 때문에 검색을 차단하는 경우는 처음 봤습니다. 그나저나 네이버는 어떻게 제 노트북에 악성코드가 있는지 아는 것일까요? 저는 PC그린 사용자도 아닌데요. 문제는 제 노트북에서만 이 같은 화면이 나타난 것이 아니라는 것입니다. 주변에 있던 사람들 모두 네이버 검색이 불가능했습니다. 나중에 알고 보니 SK컴즈 사옥 전체에서 네이버 검색이 안 됐던 것입니다. SK컴즈는 검색 포털 네이트를 운영하는 회사입니다. 최근 포털시장 구도에 변화를 주기 위해 가장 적극적으로 움직이고 있는 회사입니다. 그렇다면 SK컴즈가 자사 건물 내에서 네이버 검색을 금지시킨 것일까요? 하지만 이렇게 상상하기는 쉽지 않습니다. 네이트가 아무리 네이버를 이기고 싶더라도, 네이버 검색을 차단하는 것은 너무 유치한 발상입니다. 또 경쟁사 서비스에 눈을 감고, 그보다 더 좋은 서비스를 만들기는 불가능합니다. NHN과 SK컴즈 양측에 다 물었지만 양측다 원인은 파악하지 못하고 있는 상태였습니다. SK컴즈측에서도 네이버에 문의를 해 놓은 상태라더군요. NHN에 따르면, 위와 같은 메시지는 특정 IP에서 다량의 쿼리가 입력될 때 나타나는 경우가 많다고 합니다. 한 IP에서 갑자기 많은 쿼리가 들어온다는 것은 어뷰징일 가능성이 높다고 판단하기 때문이랍니다. 경쟁사의 광고비를 빨리 소진시키거나 검색순위를 조작하는 것 말입니다. 또는 악성코드에 감염된 PC들이 이같이 다량의 쿼리(질의)를 보내기도 한답니다. 즉 네이버가 사용자의 PC에 악성코드가 있다는 것을 파악하는 것이 아니라, 그럴 가능성이 있는 패턴을 보고, 그것을 근거로 차단한다는 것입니다. 하지만 SK컴즈 직원들이 다 같은 IP를 사용하는 것은 아닐 것입니다. 다른 IP에서 들어오는 쿼리를 차단할 방법은 마땅치 않습니다. 지난 달 10만여대의 좀비피시를 조종해 네이버 실시간 인기검색어를 조작해 돈벌이를 한 사례가 최근 적발되기도 했습니다. SK컴즈의 네이버 검색 차단 문제는 금방 해결됐습니다. 하지만 결국 이 사건은 정확한 원인을 밝히지 못하고 해프닝으로 끝나는 것 같습니다. 모든 문제에는 원인이 있기 마련입니다. 원인을 찾지 못하고 넘어가는 것이 왠지 찜찜합니다. 댓글 쓰기

네이트는 아저씨 검색, 구글은 남 좋은 일만

심재석의 소프트웨어 & 이노베이션 09.12.09 11:19

언론사들이 연말에 빼 놓지 않는 뉴스꼭지 중에 하나가 ‘올해의 10대 뉴스’가 있습니다. 그 해에 보도됐던 소식 중 중요하거나 화제가 됐던 뉴스를 통해 한 해를 되돌아 보자는 취지입니다. 인터넷포털 업체들도 비슷한 취지로 ‘올해의 인기검색어’를 발표합니다. 이제는 인기검색어도 하나의 미디어이기 때문입니다. 10대 뉴스를 통해 한 해를 되돌아 보듯, 인기 검색어를 통해 올해 화제가 됐던 사건이나 사람을 들을 한 눈에 볼 수 있습니다. 그럼 올해 인기 검색어를 살펴볼까요? 우선 국내 최대 검색 포털인 네이버를 살펴보죠. 2009년은 ‘마이클잭슨’, ‘노무현’, ‘장자연’ 등 죽음과 관련된 사회적 이슈키워드가 상위 10개 검색어 중 3개를 차지했습니다. 유난히 유명인들의 부고 소식이 많았던 한해였다는 점을 알 수 있습니다. 연예계에선 걸그룹의 활약상이 돋보였던 한해입니다. 소녀시대, 2NE1,유이 등 걸그룹 및 걸그룹 소속 연예인이 대거 인기 검색어에 포함됐습니다. 남성 아이돌 그룹 중에는 박재범군의 탈퇴로 인해 2PM이 이슈의 중심에 섰습니다. 드라마중에는 꽃보다남자, 선덕여왕이 화제가 됐군요. 김연아 선수의 완벽한 활약도 잊을 수 없습니다. 네이버는 성별 인기 검색어도 발표했습니다. 남성의 경우 ‘소녀시대’, ‘유이’, ‘주아민’, ‘손담비’, ‘박보영’ 등 여성 유명인을 주로 검색했습니다. 최근 최대 히트상품으로 떠오른 아이폰은 주로 남성들의 검색 대상이었군요. 여성들도 ‘빅뱅’, ‘2PM’, ‘동방신기’, ‘샤이니’ 등 남성 연예인을 검색하는 경우가 많았습니다. 아이돌그룹 중 2NE1은 남성, 여성 모두 인기 검색어로 선정돼 남녀모두에게 고른 인기를 얻고 있음을 보여줬습니다. 이번에는 최근 상승세를 띄고 있는 네이트의 인기 키워드를 살펴볼까요? 네이트 검색 이용자는 네이버에 비해 평균연령이 다소 높다는 것을 짐작할 수 있는 결과군요. 네이버 인기검색어에는 없었던 신종플루, 김대중 전 대통령 서거, 김수한 추기경 선종, 미디어법 직권상정, 용산 참사 등 사회적 이슈를 대변하는 검색어가 대거 포함돼 있습니다. 네이버 인기 검색어에서 맹위를 떨쳤던 걸그룹 중에는 네이트 인기검색어에서 소녀시대만 살아남았네요. 이를 종합하면 네이트 검색은 30~40대 남성들이 주로 이용한다는 결론을 얻을 수 있습니다. 전세계적으로 인기 있는 검색어는 단연 6월에 사망한 팝의 황제 마이클 잭슨이었습니다. 구글과 야후 모두 최근 발표한 올해의 인기 검색어 1위에 마이클 잭슨을 올려놓습니다. 구글의 인기 검색어 순위에는 페이스북(2위)과 트위터(4위) 등 소셜네트워크서비스(SNS)가 상위에 올랐으며, 흡혈귀를 소재로 다룬 영화 ‘뉴 문’(6위)과 마이크로소프트(MS)가 10월에 새로 발표한 윈도7(8위)도 포함됐습니다. 가장 흥미로운 건 구글코리아의 인기검색어입니다. 구글코리아 최다 검색어 1위부터 10위까지를 살펴보면, ▲네이버 ▲다음 ▲싸이월드 ▲야후 ▲한게임 ▲넷마블 ▲옥션 ▲유튜브 ▲아이온 ▲꾸러기 순입니다. 국내 포털과 달리 구글 검색 이용자들은 콘텐츠를 소비하기 위한 검색이 아닌 다른 포털 사이트로 이동하기 위해 구글 검색을 사용한다는 사실을 보여줍니다.  이는 구글코리아가 바라는 바는 아닙니다. 한국에서 구글은 다른 포털로 이어지는 통로만 되고 진짜 검색은 네이버, 다음, 싸이월드, 야후에서 한다는 얘기니까요. 남 좋은 일만 시켜준 것이죠. 구글코리아가 최근 검색 첫화면을 바꾼 것도 이 같은 이유 때문으로 보입니다.댓글 쓰기

네이트 시맨틱검색, 원리는 무엇일까

심재석의 소프트웨어 & 이노베이션 09.12.17 15:04

네이트가 최근 ‘시맨틱 검색’이란 서비스로 대박을 치고 있습니다. 시맨틱 검색이란 말 그대로 문서의 의미(시맨틱)을 분석해 검색하는 것을 말합니다. 국내에서 ‘시맨틱’을 전면에 내세운 서비스를 시작한 것은 네이트가 처음인 것 같습니다. 네이트는 이 서비스를 선보인 이후 지난 주 창사이래 처음으로 통합검색 점유율이 10%를 넘겼습니다. 네이트 홍보팀은 요즘 경마중계하듯 매주 자사 검색점유율 상승분에 대해 보도자료를 배포하고 있습니다. 네이트가 최근 얼마나 고무돼 있는지 보여줍니다. 하지만 네이트의 시맨틱 검색 기술에 대해서는 많이 알려지지 않은 것 같습니다. 언뜻 보기에는 단순한 서비스인 것처럼 보이지만, 이 서비스에는 검색엔진 및 자연언어처리 업계가 지난 10년동안 연구해온 결과물이 반영돼 있습니다. 시맨틱 검색이라는 말은 ‘시맨틱 웹’에서 차용된 용어입니다. 시맨틱 웹을 기술적으로 이해하려면, 온톨로지?RDF 등의 용어를 알아야 합니다. 쉽지 않은 일이죠. 온톨로지는 컴퓨터가 인간의 인식 능력과 유사한 기능을 하도록 하기 위해 만들어 놓은 거대한 데이터셋이라고 이해하면 될 것 같습니다.. 시맨틱 웹은 XML 기반의 마크업 언어를 기반으로 하며, RDF라는 구조를 기반으로 합니다. 이렇게 쓰기는 했지만, 사실 저도 자세히 모르는 내용입니다. 하지만 네이트의 시맨틱 검색에 온톨로지, XML, RDF 등의 기술이 반영된 것은 아닙니다. 때문에 엄밀히 말해서 네이트의 시맨틱 검색은 흔히 얘기하는 ‘시맨틱’은 아니라고 볼 수 있습니다. 그렇다고 해서 네이트의 시맨틱 검색을 무시해도 좋다는 것은 아닙니다. 온톨로지?XML?RDF 등의 방법론을 사용하지는 않았지만, 사용자의 검색의도를 파악하려는 시도, 단순 키워드 비교가 아닌 문장과 문서의 의미 분석 결과를 검색 결과에 반영하는 시도 등은 시맨틱웹의 접근 방법과 같습니다. 방법론만 다른 것이지요. 네이트 시맨틱 검색기술을 개발한 코난테크놀로지는 시맨틱 검색에 대해 “문장이나 단락에 기술된 주제를 파악하고 이를 대상으로 검색하는 것”이라고 정의했습니다. 네이트의 시맨틱 검색 서비스는 크게 ▲검색주제 ▲즉답 ▲주제별검색으로 나뉠 수 있습니다. 사용자가 검색어를 입력하면 검색한 사람이 관심있을 법한 검색주제가 왼편에 나타나고, 그 속성에 대한 ‘즉답’이 오른편에 나타납니다. 예를 들어 ‘이명박’이라는 검색어를 넣으면 공약, 당선이유, 경력 등의 검색주제가 나오며, 공약이라는 검색주제에 대한 ‘즉답’으로 ‘국민소득 4만불’, ‘7% 성장’ 등이 나오는 구조입니다. 이용하는 사람들은 대단치 않게 느낄지 몰라도, 이 정도 수준의 결과를 보여주기 위해서는 상당한 수준의 기술이 필요하다고 합니다. 이 같은 서비스를 위해 어떤 기술이 사용됐을까요? 우선 코난테크놀로지는 1만개 정도의 검색주제를 데이터베이스로 갖췄습니다. 사용자들이 검색어를 입력하면, 1만개의 검색주제 중 검색어와 맞는 검색주제를 찾아내 보여줍니다. 검색 키워드가 정치인과 관계된 것이라면 발언, 공약, 측근 등의 검색주제를 골라내고, 검색 키워드가 연예인이라면 데뷔정보, 신체사항, 소속사 등의 검색주제를 자동적으로 찾아냅니다. 검색어가 질병이라면 소개, 원인, 증상 등의 검색주제가 나옵니다. 이 같은 검색주제가 추출되면 그 주제에 맞는 즉답을 찾아야 합니다. ‘이명박’이라는 검색어에 대한 검색주제로 ‘공약’이 추출됐다면, 그에 맞는 ‘4만 달러 달성’이라는 답을 찾아야 하는 것입니다. 만약 구글 검색엔진이라면 ‘이명박 공약’을 검색했을 때 이명박과 공약이라는 단어가 포함된 문서를 보여줄 것입니다. 하지만 시맨틱 검색에서는 직접 ‘국민소득 4만불’ ‘7% 경제성장’ 등의 정답을 찾아내기 위해 노력합니다. 이를 위해서는 문서의 구조를 파악하고, 문장의 구문과 의미를 분석하는 기술이 필요합니다. 문장의 의미를 분석해 속성을 정의해 나가야 합니다. 예를 들어, ‘이순신은 인종 1년인 1545년 4월 28일 서울 건청동에서 태어났다’는 문장을 만나면 시맨틱 검색엔진은 이순신 출생일과 이순신 출생지를 파악할 수 있습니다. ‘이순신’이라는 메인 키워드를 중심으로 ‘1945년 4월 28일’에 ‘(이순신) 출생일’이라는 검색주제를 부여하고, 서울 건청동을 ‘(이순신) 출생지’라는 검색주제로 분류할 수 있습니다. 이는 ‘태어나다’라는 동사를 보고 판단하는 것입니다. 사람은 인지능력이 있기 때문에 이런 파악이 너무 쉽지만, 인지 능력이 없는 컴퓨터가 이를 파악하기 위해서는 무수한 부수정보가 필요합니다. 컴퓨터가 볼 때 ‘태어났다’는 글자는 단순 문자열에 불과합니다. 그냥 0과 1의 조합일 뿐입니다. 하지만 ‘태어나다’라는 동사 앞에 시간이 오면 출생일, 지역이 오면 출생지라는 속성을 부여토록 미리 정의할 수 있습니다. 이를 위해 자연언어처리 기술이 필요합니다. 형태소분석, 구문분석, 의미분석 등 다양한 절차를 거칩니다. 이는 결코 쉽지 않은 일입니다. 컴퓨터가 이해할 수 있는 사전(Lexicon)을 구축해야 하고, 분석할 수 있는 규칙도 있어야 합니다. 수학적 통계를 이용하기도 합니다. 쉽지 않은만큼 당장 완벽한 검색 결과를 제공하는 것은 불가능합니다. 실제로 네이트 시맨틱 검색은 아직 적지 않은 오류를 보이고 있습니다. 예를 들면 ‘신동엽’이라는 검색어를 입력하면 데뷔작 이라는 검색주제에 ‘남자셋 여자셋’이 나옵니다. 이건 잘못된 결과입니다. 신동엽씨는 남자셋여자셋이라는 시트콤보다 훨씬 먼저 데뷔했습니다. 코너 제목은 잘 기억이 안나지만 1990년대 초반 SBS 개국 당시 ‘안녕하시렵니까’라는 유행어로 혜성처럼 등장했던 것 같습니다. 그렇다면 네이트 시맨틱 검색은 왜 신동엽씨 데뷔작이라는 속성에 대해 남자셋여자셋이라는 즉답을 내놓았을까요? 아래 문장을 보면 납득이 갑니다. 검색엔진은 아래 문장을 보고 신동엽 데뷔작은 남자셋여자셋이라는 판단을 내렸습니다. 이날 신동엽은 시트콤 '남자셋 여자셋'으로 데뷔해 신인인 송승헌과 호흡을 맞출 당시를 회상하며, "신인이었던 송승헌이 도가 지나치게 잘생긴 외모에, 도가 지나치게 연기를 못해 두 번 놀랐다"고 말하며 좌중에 웃음을 던져주었다. 문장이 4중 복문으로 구성돼 있군요. 문장이 너무 복잡해서 시맨틱 검색엔진이 문장을 잘못파악한 것입니다. 이 문장을 볼 때 사람은 “남자셋 여자셋은 송승헌씨의 데뷔작”이라는 것을 금방 알 수 있지만, 컴퓨터한테는 아직 쉽지 않은 일입니다. 우리가 복잡한 영어문장 해석에 어려움을 겪는 것과 같은 이치입니다. ‘직관’이 없기 때문이죠. 하지만 점점 더 기술이 발전하면 이런 오류는 차츰 줄어갈 것입니다. 네이트 시맨틱 검색도 아직 완벽하지는 않습니다. 하지만 점점 더 좋아질 것으로 믿습니다. 댓글 쓰기

네이트, 빼앗긴 점유율 10%의 행복

심재석의 소프트웨어 & 이노베이션 10.01.05 18:07

네이트가 지난 달 통합검색 점유율 10%를 넘어섰던 것 기억하십니까. 인터넷 시장조사전문기관 코리안클릭의 12월 14일 자료에 따르면, 당시 네이트는 통합검색 점유율 10.23%를 기록하는 기염을 토했습니다. 이는 SK커뮤니케이션즈(이하 SK컴즈)가 2001년 10월 출범한 이후 8년 2개월 만에 처음거둔 쾌거였으며, SK컴즈가 도토리 장사(?)를 넘어 검색포털로서 자리매김할 수 있는 가능성을 보여준 사건으로 해석됐었습니다. 그런데 이게 웬일입니까? 네이트가 검색점유율 10%를 넘겼던 것이 없었던 일이 돼 버렸습니다. 코리안클릭이 네이트 통합검색 점유율 측정 기준을 바꿨기 때문입니다. 특히 이 기준을 소급 적용해 12월 둘째주 네이트의 10% 점유율 돌파 사실은 취소됐습니다. 측정기준을 변경해 조사한 코리안클릭 자료에 따르면, 네이트의 둘째주 통합검색 점유율은 9.87%를 기록했습니다. 이 같은 변화가 생긴 것은 코리안클릭이 네이트의 시맨틱 검색을 통합검색에서 제외했기 때문입니다. 이전에는 네이트 시맨틱 검색에서 왼편의 검색주제를 바꿀 때마다 통합검색의 쿼리(질의)가 증가했습니다. 예를 들어 ‘이명박’이라는 검색어를 넣으면 공약, 당선이유, 경력 등의 검색주제가 나오는데, 이 검색주제를 바꿀 때마다 쿼리가 증가했던 것입니다. 하지만 이제 코리안클릭은 시맨틱 검색의 검색주제를 바꿔도 통합검색 쿼리를 증가시키지 않기로 했습니다. 시맨틱 검색은 통합검색이 아닌 기타검색으로 분류됐습니다. 코리안클릭의 이 같은 정책변화는 시맨틱검색이 과도하게 쿼리를 발생시킨다는 경쟁사들의 지적 때문인 것으로 예상됩니다.사용자가 직접 검색어를 입력시키지 않았는데도 검색주제를 바꿀 때마나 통합검색 쿼리가 올라가는 문제가 있다는 것이 경쟁사들의 시각이었습니다. 검색 시장에서 더 이상의 의미있는 경쟁사를 만들고 싶지 않은 선두 업체들의 입김이 작용된 것으로 보입니다. 이에 대해 SK컴즈는 화가 단단히 난 모습입니다. 경쟁사들의 음해(?) 때문에 이 같은 일이 벌어졌다고 생각하는 듯 합니다. 검색 점유율 10% 돌파로 따뜻한 연말을 보내려는데, 찬물을 끼얹었다는 것입니다. 물론 SK컴즈의 분노를 이해 못할 바는 아닙니다. 하지만 더 중요한 것은 지나간 점유율보다 앞으로의 점유율일 것입니다. 위 점유율 표를 다시 보면 SK컴즈의 통합검색 점유율은 12월 둘째주 정점을 찍은 이후 다시 하락세로 돌아섰습니다. SK컴즈가 지난 일은 빨리 잊고, 점유율을 다시 끌어올리는데 힘쓰는 것이 나아 보입니다.댓글 쓰기

국내 포털, 실시간 검색 전략은 무엇일까

심재석의 소프트웨어 & 이노베이션 10.01.19 11:15

최근 글로벌 검색엔진 업계의 이슈는 ‘실시간 검색’입니다. 실시간 검색이란 일반적으로 트위터, 페이스북 등에 새로운 글이 올라오자마자 검색엔진이 그 글을 검색할 수 있도록 하는 기술을 말합니다. 현재 검색엔진들은 뉴스 등 특별한 영역을 제외하고는 실시간 정보를 검색하지 못합니다. 웹에 새로운 정보가 올라와도 몇 시간 후, 또는 다음 날에야 검색엔진이 그 정보를 검색할 수 있습니다. 검색엔진의 검색로봇이 일정 시간을 주기로 새 글을 수집해서  DB에 저장해 두기 때문입니다. 블로그에 새로운 글을 썼는데도, 검색엔진에서 당장 검색되지 않는 것은 이 같은 이유입니다. 지금까지는 실시간 검색이 별로 필요가 없었습니다. 일단 뉴스를 제외하고는 실시간으로 업데이트 되는 콘텐츠가 거의 없었고, 또 업데이트 된 내용을 그 순간순간 검색할 필요도 없었습니다. 하지만 트위터, 페이스북 등 소셜 미디어들이 등장하면서 분위기가 바뀌고 있습니다. 예를 들어, 트위터에는 매일매일, 순간순간 새로운 정보가 올라옵니다. 이 같은 정보들에는 친구들끼리의 단순 안부인사부터, 뉴스, 컨퍼런스 중계, 정치토론 등 다양한 내용이 포함돼 있습니다. 이 정보들을 실시간으로 검색할 수 있다면, 검색엔진의 활용도는 지금보다 훨씬 커질 것입니다. 실시간 검색에 가장 빠른 행보를 보이는 곳은 구글입니다. 구글은 실시간 검색을 위해 페이스북, 마이스페이스, 트위터, 프렌드피드, 자이쿠, 트위터 등과 제휴를 맺었습니다. 그리고, 지난 해 12월 ‘구글검색의 미래’라는 행사에서 실시간 검색을 처음 선보였습니다. 트위터에 몇 초전에 쓴 글을 구글 검색을 통해 확인할 수 있었습니다. 마이크로소프트도 ‘빙’에서 실시간 검색을 제공한다는 방침입니다. 그렇다면 국내 업체들은 실시간 검색에 대해 어떻게 생각하고 있을까요? 네이버, 다음, 네이트 등 포털 3사에 실시간 검색에 대한 계획을 들어보았습니다. 실시간 검색에 가장 적극적인 의지를 보이는 회사는 다음인 것 같습니다. 다음은 "상반기 중에 실시간 검색을 시작하겠다"고 밝히고 있습니다. 인터넷 검색 시장에서의 반전기회를 호시탐탐 노리는 다음으로서는 새로운 트랜드에 적극 대응하는 것이 당연할 것입니다. 다음은 “실 시간성 데이터가 생성되는 여러 플랫폼의 정보성 글들을 오픈 돼 있는 범위 안에서 실시간 검색결과로 제공할 예정이다. 올 상반기 중 적용할 계획이며, 정확한 노출 방식 등은 아직 정해진 바 없다. 이 밖에 카페, 블로그, 아고라, 뉴스 등에 각 플랫폼에서 만들어지는 글들을 실시간 니즈에 맞게 제공하는 방향을 고민 중”이라고 답했습니다. 하지만 “오픈 돼 있는 범위”라는 것이 애매합니다. 여기서 “오픈 돼 있다”는 것은 검색엔진의 접근을 막지 않고 있다는 의미입니다. 하지만 실시간 검색의 주요 대상이 되는 트위터나 페이스북은 현재 모두 검색엔진의 접근을 막고 있습니다. 때문에 구글이나 MS는 트위터, 페이스북 등과 제휴를 맺고 실시간 검색 사업을 진행하고 있습니다. 하지만 다음의 경우 제휴를 맺을 계획을 갖고 있는 것은 아닌 것 같습니다. 오 픈돼 있는 범위에서 실시간 검색을 하겠다는 것은 결국 아무 것도 하지 않겠다는 결론으로 이어질 수 있습니다. 다음이 외부 플랫폼에 대한 실시간 검색 의지가 있다면, 양해각서체결 등의 전략적 제휴 움직임이 있어야 할 것으로 보입니다. 반면 네이버는 ‘실시간 검색’에 대한 기술연구는 하고 있지만, 서비스를 시작할 것인지에 대해서는 의사결정이 내려지지 않은 상태라고 합니다. 네이버는 사내에 실시간 검색을 위한 태스크포스크팀을 가동하고 있습니다. 이 팀에서 미투데이를 대상으로 한 실시간 검색을 검토하고 있습니다. 하지만 미투데이 콘텐츠를 검색하는 것이 과연 유용할 것인지, 사용자들의 개인적 안부인사 등을 검색결과로 내 놓는 것이 옳은 것인지, 자신의 글이 검색되지 않는 것을 원하는 사용자는 어떻게 할 것인지 등에 대해 더 고민해야 한다고 NHN 관계자는 설명했습니다. 1위 사업자로서 조심조심 움직이겠다는 뜻으로 이해됩니다. 세계 검색 시장 1위 업체인 구글은 항상 새로운 트랜드와 아젠다를 먼저 만들고 도전적 자세를 보이는 반면, 네이버는 상대적으로 좀더 보수적인 태도를 취하고 있습니다. 가장 흥미로운 회사는 네이트를 운영하는 SK커뮤니케이션즈입니다. SK컴즈는 실시간 검색을 중요한 트랜드로 보고 있지 않은 듯 보입니다. 실시간 검색 전략에 대한 질문에 "고려하고 있지 않다"고 답했습니다. 물론 SK컴즈측도 나름대로의 세계 검색시장, 국내 검색 시장을 유심히 지켜보고 있을 것입니다. 실시간 검색을 고려하지 않고 있다고 밝혔을 때는 나름대로의 판단이 있었을 것입니다. SK컴즈가 왜 실시간 검색을 중요하지 않다고 생각하는지, 그 판단의 근거까지는 아직 듣지 못했습니다. 앞으로 추가적으로 SK컴즈가 왜 실시간 검색을 필요 없다고 생각하는지 좀더 알아봐야 겠습니다.댓글 쓰기

네이버 뉴스 정렬 기준, 왜 바꿨을까

심재석의 소프트웨어 & 이노베이션 10.01.28 08:53

어제(27일) 네이버 뉴스 검색 결과 노출의 정렬 기준이 바뀌었습니다. 기존에는 뉴스라는 특성에 따라 ‘시간’을 기준으로 최신 기사를 맨 먼저 보여줬지만, 이제는 ‘정확도’를 기준으로 보여지게 됩니다. 정확도를 계산하는 알고리듬은 알려지지 않았습니다. 아마 검색 키워드가 제목에 있거나 본문에서 검색 키워드가 여러 번 등장한 뉴스가 검색 결과의 상단에 보여질 것입니다. 정확도순 정렬이 기본설정이기는 하지만, 최신순으로 정렬할 수도 있습니다. NHN측은 이번 개편에 대해 “검색품질에 대한 이용자의 만족도 조사 결과 '정확도순'이 '최신순' 정렬보다 높은 만족도를 보인 데 따른 것”이라고 설명했습니다. 하지만 이번 개편의 진짜 속내는 어뷰징(abusing : 남용, 오용)을 조금이라도 차단해보려는 것으로 보입니다. 언론사들의 어뷰징 때문에 네이버 뉴스 검색 결과의 만족도가 떨어졌다고 평가한 것 같습니다. 어뷰징이란 언론사들이 자사 뉴스 클릭을 높이기 위해 하는 일종의 조작행위을 말합니다. 대표적인 것이 하나의 뉴스를 여려 차례 송고하는 것이 있습니다. 뉴스는 시간이 지나면 검색 순위가 뒤로 밀리기 때문에 같은 뉴스를 여러 차례 네이버에 송고해 지속적으로 검색결과 상단에 나오도록 하는 행위입니다. 또 실시간 인기 검색어를 의도적으로 본문에 끼워 넣는 방법도 있습니다. 예를 들어 ‘소녀시대’가 실시간 인기 검색어에 포함돼 있다면 소녀시대 관련 기사가 아니면서도 본문에 슬쩍 ‘소녀시대’라는 단어를 끼워 넣는 것입니다. 기존 네이버 뉴스는 검색어가 포함돼 있으면 무조건 시간순으로 보여줬기 때문에 이같은 어뷰징 행위들이 가능했습니다. 뉴스 검색 정렬이 정확도 순으로 바뀌면 이같은 어뷰징 행위들이 줄어들 수 있습니다. 같은 기사를 여러 번 송고해도 정확도가 높지 않으면 검색 결과 상단에 보여지지 않을 것입니다. 또 실시간 검색 키워드를 슬쩍 끼워 넣어도 정확도가 낮기 때문에 후순위로 보여질 것입니다. 하지만 이번 조치로 어뷰징이 근절될까요? 그렇지는 않을 것입니다. 아마 정확도순 정렬에 맞춘 새로운 어뷰징 기법이 나올 것입니다. 언론사의 트래픽은 곧 ‘밥줄’이니까요.댓글 쓰기