2011년 11월 발표된 전세계 ‘톱500’ 슈퍼컴퓨터 순위(top500.org)에서 아마존웹서비스(AWS) 상에 구축된 시스템이 42위에 올라 화제가 됐습니다. 

 

CPU나 GPU를 왕창 때려박은 대형 하드웨어 대신 클라우드 서비스(퍼블릭 클라우드 서비스를 의미)로 구현된 슈퍼컴이 순위권에 진입한 것은 이때가 처음이었습니다. 1만7024개의 코어(가상코어)로 구성된 이 시스템은 유전자 분석에 활용되는 용도였죠.

 

8년이 흐른 지금은 어떨까요. 무한대로 시스템 확장이 가능한 클라우드 서비스가 이른바 고성능 컴퓨팅(HPC)으로 대변되는 슈퍼컴퓨터를 어느 정도 대체했을까요.

 

최근 발표된 54회 슈퍼컴퓨터 순위를 살펴보면, 500위 내에 들어있는 슈퍼컴퓨터 중에 클라우드 서비스로 구현된 시스템은 여전히 1대에 불과합니다. 미국 산타페에 위치한 데카르트 랩스(Descartes Labs)가 아마존 EC2 C5 인스턴스 클러스터로 구축한 시스템으로 4만1472코어로 구성돼 있습니다. 지난 6월 136위로 입성해 이번 11월 순위에선 179위로 43계단 내려갔습니다. 

 

데카르트 랩스는 위성으로 촬영한 이미지를 분석해주는 스타트업입니다. 데카르트 랩스 홈페이지에 들어가면 “지구를 이해하기 위해 만들어진 데이터 정유소(A data refinery, built to understand our planet)”라고 소개되어 있습니다. 이밖에 482위에 중국 패스트원테크가 AWS HPC 클러스터로 구축한 시스템이 있긴 합니다. 이 업체는 클라우드 매니지드 서비스(MSP) 업체인 듯 싶습니다.

 

그리고 8년 전 순위에 올랐던 바로 그 첫 AWS 슈퍼컴은 매년 순위가 뒤로 밀려 2015년 11월 426위를 마지막으로 리스트에서 사라졌습니다.

 

결국 아직까지 클라우드 서비스가 슈퍼컴퓨터 영역으로는 진입을 하지 못한 듯 합니다. 이는 클라우드와 슈퍼컴퓨터 간에는 분명한 차이점이 존재하기 때문인데요.

 

전문가들이 지적하는 가장 큰 차이점은 노드 연결망입니다. 슈퍼컴퓨터의 경우 연결망이 중요합니다. 보통 슈퍼컴퓨터는 인피니밴드 스위치를 통해 시스템을 연결합니다. 이에 비해 클라우드 서비스는 일반적으로 우리가 사용하는 인터넷을 통해 연결됩니다.

 

이번 순위의 통계를 살펴보면 인피니밴드를 활용한 슈퍼컴퓨터는 성능 기준으로 톱500 슈퍼컴 중 40.3%를 차지하고 있습니다. 가기비트 이더넷도 26.1%나 되지만, 맞춤형 인터커넥터나 옴니패스를 사용하는 경우도 32.8%를 차지하는 것을 볼 수 있지요.

 

메모리도 중요한 차이점 중 하나입니다. 일반적으로 슈퍼컴퓨터는 데이터 집약적인 애플리케이션을 많이 돌리기 때문에 메모리를 시스템에 많이 탑재합니다. 최근 퍼블릭 클라우드 서비스에도 메모리 용량이 큰 인스턴스가 추가되고 있긴 합니다만 아직은 충분치 않다고 볼 수 있겠죠.

 

무엇보다 슈퍼컴퓨터에서 제대로 된 성능을 내기 위해선 전문가의 튜닝(최적화) 작업이 필요합니다. 실제 클라우드 서비스에서 HPC 애플리케이션을 돌려보면 성능이 나오지 않는 경우가 많다고 합니다.

 

여하튼 전문가들의 공통된 의견은 노드 간 통신이 거의 필요 없고 메모리를 많이 사용하지 않는 HPC 애플리케이션은 현재 클라우드 서비스에서도 충분히 구동이 가능하다는 것입니다. 대표적인 것이 유전자 분석이나 금융영역에서의 이상탐지(사기방지) 영역입니다. 

 

향후 클라우드 서비스 업계의 HPC 생태계가 발전하면서 점차 더 많은 애플리케이션을 수용할 수 있을 것으로 전망하고 있습니다. 당장은 아니지만 조금 더 시간이 흐르면 슈퍼컴퓨터이 영역의 많은 부분을 클라우드 서비스가 대체할 수 있을 것으로 보는 시각도 많습니다. 

 

실제 클라우드 HPC 플랫폼을 제공하는 미국의 ‘리스케일’이 최근  클라우드와 슈퍼컴퓨터 간 매개체 역할을 하고 있는 업체 중 하나입니다.

 

최근 한국과학기술정보연구원(KISTI)도 슈퍼컴퓨터 5호기 ‘누리온’ 활성화 및 사용자 확산을 위한 이지누리온(ezNurion) 서비스 제공을 위해 리스케일과 협력한다고 발표한 바 있습니다. 

 

그동안 슈퍼컴퓨터는 소수의 사용자가 매우 복잡한 연산을 처리하는 것을 주 목적으로 했으나 최근에는 누구나 쉽게 이 자원을 활용할 수 있는 방향으로 발전하고 있습니다. 이른바 ‘슈퍼컴퓨터의 대중화’입니다.

 

이번에 KISTI와 협력한 리스케일의 역할은 누구나 손쉽게 슈퍼컴퓨터 자원을 사용할 수 있도록 도와주는 것입니다. 슈퍼컴퓨터에서 주로 구동되는 다양한 HPC SW(애플리케이션)의 특성에 따른 플랫폼을 구축하고 이를 클라우드 환경에서 잘 돌아갈 수 있도록 해줍니다. 

 

슈퍼컴퓨터를 사용하는 연구자들은 클라우드 인프라를 잘 모르고, 클라우드 사업자들은 슈퍼컴퓨터에서 돌아가는 애플리케이션의 성격을 잘 모르기 때문에 중간에서 이를 조정하는 역할인 셈이죠.

 

KISTI 역시 누구나 슈퍼컴퓨터(누리온)을 쉽게 사용할 수 있도록 클라우드 형태의 ‘이지누리온’ 시범 서비스를 제공하는데 리스케일 플랫폼을 활용할 예정입니다. 

 

인텔이나 AMD, 엔비디아 같은 칩 업체들이 최근 AWS이나 마이크로소프트(MS) 애저와 같은 클라우드 서비스에서 슈퍼컴퓨터가 잘 구동될 수 있도록 새로운 발표를 이어가는 것도 이같은 트렌드와 연관돼 있습니다. 최근 엔비디아도 MS 애저에서 구동되는 새로운 GPU 가속 NDv2 인스턴스를 출시한다고 발표했습니다. 

 

과거 무기개발 등 국가 발전(?)에 홯용되던 슈퍼컴퓨터는 이제 기업의 신제품 개발부터 자연재해 및 교통문제와 같은 사회 현안 해결을 해결하고 있습니다. 소수가 독점하는 것이 아닌 모두가 사용할 수 있는 슈퍼컴퓨터 환경이 클라우드 서비스와 맞물리면서 활용 범위는 훨씬 넓어질 전망입니다.


저작권자 © 딜라이트닷넷 무단전재 및 재배포 금지