디지털 라이프 電子的生活 My Digital Life/슈퍼컴퓨터 (HPC)

제 58회차 TOP500 슈퍼컴퓨터 랭킹 분석

미친도사 2021. 11. 18. 19:00

안녕하세요, 미친도사입니다.

매년 6월과 11월 전세계 슈퍼컴퓨터 순위가 발표되는데, 개인적으로 시장 분위기와 트렌드를 따라가고자 수년간 나름 정리를 하고 있습니다.

이번 주가 미국에서는 슈퍼컴퓨터 컨퍼런스(통상 SC show라고 부름)가 있는 주간인데, 이 때에 맞춰 새로운 순위가 발표되었습니다.

이 내용을 소개하면서, 요새 HPC 시장은 이런 것들이 대세구나 하는 감을 전달하고자 합니다.

이번엔 TOP500측에서 공개한 뉴스부터 번역해서 소개합니다.

Microsoft가 지난 회차에도 26~29위까지 대형 시스템을 등재시켰는데, 이번엔 좀 더 크게 만들었습니다.
클라우드 상에서 대형 HPC를 구현하는 것에 대한 레퍼런스를 만들기 위함으로 보이는데, AWS, 구글 등의 다른 클라우드 서비스에 비해 좀 더 적극적이네요.

1위 시스템이 4회 연속 1위인 가운데, 초대형 시스템이 구축 중이라는 소식도 전해져 오고 있습니다.

수년 전부터 엑사스케일(1 Exa-Flop/s 시스템)의 구현이 HPC 시장의 화두였고, 미국은 몇몇 국립 연구소들과 Cray, IBM과 함께 이 시스템들 구축을 진행하고 있었습니다.

IBM은 발표 당시엔 1, 2위를 한 (현재 2, 3) Summit Sierra가 있는데, Cray(현재 HPE)는 다음 회차에 역사적인 1EFlop/s의 성능의 시스템을 공개할 것 같네요.

Top10 뉴스는 지난 회차랑 큰 차이가 없습니다. 10위에 Microsoft의 시스템이 새롭게 등장~

대형 HPC NVIDIA A100이 탑재된 시스템이 많다 보니, 자연스럽게 AMD 시스템의 비중도 많이 높아졌습니다.

인텔이 PCIe Gen4의 출시가 늦어지면서, A100을 탑재하기 위한 베이스보드가 AMD 보드가 채택된 것이 큰 원인이라 하겠습니다.

사실 수년 전에 1, 2위로 등장했고 현재 2, 3위인 IBM 시스템의 프로세서인 Power9 PCIe Gen4를 지원해서 IBM도 바로 PCIe Gen4 A100을 지원하는 시스템을 낼 수 있을 것 같은데 무슨 이유에서인지 계속 늦어지는 것이 뭔가 기술적인 문제가 있는 게 아닌가 싶습니다.

 

상위 20위까지의 시스템 순위입니다.

20위 안쪽으로는 5대의 시스템이 새롭게 등재되었습니다.

 

앞에서도 언급한 마이크로소프트의 시스템이 10위에 올라와 새로 등재된 시스템 중 가장 높은 순위고요.

작년 말에 삼성전자가 대형 HPC 시스템 구축 사업을 발표해서, 국내 대형 벤더들이 다 덤벼들었는데 HPE 시스템으로 11위에 등재시켰네요.

제가 이 조사를 하기 시작한 2015년 이후 국내에 설치된 시스템 중 2018 6월에 Cray KISTI에 설치한 시스템과 함께 가장 높은 순위 동률입니다.

이번 시스템도 Cray를 합병한 HPE에서 구축한 거라 역시 대형 시스템에 강한 면모를 보여주고 있습니다.

러시아에 대형 시스템이 구축된 것도 이채롭습니다.

세로축이 로그값이긴 한데, 시스템 성능은 꾸준한 추세를 보여주고 있습니다.

대략 1위 시스템이 1EF/s가 나올 때가 되었음을 예측할 수 있습니다.

2000년대 중반에 1PF/s를 구현하기 위한 고민이 논의되곤 했는데, 15여 년 만에 1000배의 성능인 1EF/s가 얘기되고 있네요. 무시무시한 영역입니다.

중국이 놀고 있지는 않을 텐데, 최근 1년 정도 좀 잠잠합니다. 미국은 꾸준히 구축하고 있고요.

전통적인 슈퍼컴 강국인 일본, 독일, 프랑스 등은 여전하고, 이전에는 아일랜드와 영국이 따로 등록되었던 것이 합쳐서 보여지는 것 같고요.

러시아 시스템 수가 많아진 것도 좀 특이합니다.

중국이 잠잠하니 아시아도 점유율이 조금 줄어들었습니다.

프로세서 쪽은 여전히 인텔이 강세이긴 합니다만, 새로운 세대인 IceLake(Xeon Scalable Processor Gen3)가 발표된 지 꽤 되었는데도 점유율이 얼마 안 되는 것이 눈에 띕니다.

IceLake PCIe Gen4를 탑재하긴 해서 NVIDIA A100 GPU를 완전히 지원할 수 있게 되었지만, 이미 시중에 나온 A100 지원 시스템은 AMD EPYC 기반으로 만들어져서 CPU만으로 만들어진 클러스터만으로는 점유율을 높이긴 쉽지 않아 보입니다.

GPGPU를 포함한 가속기를 탑재한 시스템은 꾸준히 늘고 있는 추세입니다.

지난 회차에서는 NVIDIA Ampere 아키텍쳐 시스템이 26대였는데, 이번 회차에는 43대로 급격히 늘어났습니다.

아래 소비전력대비 성능을 나타내는 Green500쪽에서도 언급하겠지만, NVIDIA Ampere 아키텍처는 성능 뿐만 아니라 전력 효율 면에서도 매력적인 시스템임을 보여주는 사례라 하겠습니다.

20위 안에 무려 8대의 시스템이 A100을 채택하고 있는 것만 봐도 성능 및 효율이 참 좋다는 의미겠지요.

이더넷이 시스템 수로는 여전히 다수이긴 하지만, 성능면에서는 100G 이상의 인피니밴드가 약 40%의 점유율을 보이고 있습니다.

Cray가 자체 고속 네트워크 기술인 Aries를 인텔에 팔고 난 후에 새롭게 개발한 Slingshot을 탑재한 시스템도 14대나 구축된 것이 눈에 띕니다.

인텔은 그거 사서 인피니밴드랑 경쟁하고자 Omni-path 만들고는 쫄딱 망했는데… ㅎㅎ

 

TOP500 11월에 발표되는 것은 이 즈음에 미국에서 세계 최대의 슈퍼컴퓨터 행사인 SC(Supercomputer Conference)가 열리기 때문입니다.

업체마다 이 때 뭔가 큼직한 걸 발표하곤 하는데, Mellanox를 수년 전에 인수한 NVIDIA 400Gb/s 인피니밴드를 발표했습니다.

왼쪽은 최근 몇 년간 인피니밴드 연합 홈페이지에 올라와 있던 로드맵입니다.

현재 최상위 제품인 200Gb/s HDR(PCIe Gen4 필수)이 제대로 서버에서 지원되기 시작한 지 얼마 되지도 않았는데, PCIe Gen5를 필요로 하는 NDR이 발표되었습니다.

아직 많은 자료가 있는 것은 아니지만, 공식 홈페이지의 자료만으로 비교자료를 만들어 보았습니다.

일단 기존 커넥터로는 속도를 감당할 수 없어서, 10여년 만에 QSFP에서 벗어난 제품이 나왔습니다.

OSFP라는 커넥터 규격이 나왔는데, 이 부분에 대한 자료가 많이 없어 충분히 이해는 되지 않습니다만, 현재까지 알려진 바로는 스위치가 64개의 400Gb/s 포트 혹은 128개의 200Gb/s를 지원한다 합니다.

 

IBM Power9, AMD EPYC에 이어 얼마 전에서야 인텔은 Xeon Scalable Processor Gen3를 통해 PCIe Gen4를 지원하기 시작했는데, PCIe Gen5는 좀 늦어지겠지요?

곧 나올 인텔 데스크탑 프로세서 12세대에서 일단 PCIe Gen5가 지원할 예정으로 알려져 있긴 한데, 데스크탑에서 먼저 적용된 신기술이 충분히 안정화된 후에 서버에 적용하는 인텔의 스타일을 봐서는 꽤나 이후에나 반영될 것으로 보입니다. 반면에 AMD는 신기술을 서버에 먼저 적용해 보고, 데스크탑에 나중에 적용하지요. AMD이나 IBM Gen5를 먼저 채택하게 될지는 지켜봐야겠습니다.

 

업체별 점유율입니다.

Cray를 합병한 HPE가 꾸준히 늘어나고 있고, 중국을 장악한 Inspur Sugon은 중국의 대외적인 발표가 줄어들면서 점유율도 좀 적어지고 있습니다.

역시 대형 시스템을 많이 구축하는 Cray덕에 Top100에서도 HPE의 지분은 늘어났습니다.

 

시스템 수에서는 Lenovo가 월등히 많지만, 성능 면에서 보면 HPE가 가장 큰 점유율을 보입니다.

1위 시스템을 갖고 있는 Fujitsu가 역시나 100위 내 성능 지분 1/4입니다. 역시!!

 

최근 슈퍼컴퓨터는 작은 계산 노드의 방대한 병렬화 구축을 통해 구성되다 보니, 어찌 보면 많이 놓을 자리와 전력, 냉각만 되면 만들 수 있긴 합니다. 그렇지만, 유지비를 무시할 수 없기 때문에 전력 효율이 좋은 시스템을 선호할 수밖에 없어서 전력 효율 순위인 Green500도 계속 주목받고 있습니다.

전에는 Green500 상위권 시스템은 Top500 순위에서는 중하위권인 경우가 많았는데, 이제는 상당히 대형 시스템도 효율이 좋은 시스템이 많아지고 있습니다.

NVIDIA A100의 등장이 큰 역할을 하고 있음이 증명되고 있습니다.

2위가 무려 삼성전자의 HPE 시스템인 것도 놀랍네요. HPE은 요모조모로 삼성전자에 구축한 시스템으로 홍보 효과 좀 볼 것 같습니다.

 

현재 TOP500 HPL이란 행렬 연산을 기반으로 하고 있는데, 너무 오래된 성능 측정 방법이라 그 보완도 꾸준히 논의되고 있습니다.

그 중 하나인 HPCG TOP500 홈페이지에 함께 등재되고 있습니다.

아직은 HPCG까지 제출한 시스템이 많지 않긴 합니다만, 조금씩 늘어나고 있나 봅니다.

지난 회차에서 AI를 위한 머신러닝 성능에 대한 얘기가 언급되면서 HPL-AI TOP500 사이트는 아니지만 hpl-ai란 사이트를 통해 정보가 업데이트되고 있습니다.

아직 이걸 보고 뭐라 얘기 나눌 정도는 아니지만, HPC의 개념이 많이 변한 지금 이런 순위도 논의되고 있음은 의미가 있어 보입니다.

계속 지켜볼 자료가 하나 더 생겼네요.

 

사용 분야는 작년과 크게 다르지 않습니다.

다만, 지난 회차에서는 어느 분야에서도 눈에 띄지 않던 러시아가 산업 분야에서 눈에 띄는 것이 이채롭습니다.

지난 회차에서는 기상청 슈퍼컴퓨터 5호기가 우리나라 시스템 중의 주목할 시스템이었다면, 이번엔 단연 삼성전자네요.

지금까지 꽤나 큰 HPC를 운영하고 있던 걸로 알려져 있었는데, 이렇게 물위로 떠오른 것은 처음인 것 같습니다.

그리고, 지난 회차에 16.8PF/s의 성능으로 등재되었던 기상청 시스템들이 성능 최적화를 통해 향상된 성능값(18.0PF/s)을 제출했네요.

이렇게 놓고 보니, 국내 대형 시스템은 HPE(사실 Cray)가 확실히 강세네요. Lenovo가 기상청 5호기를 구축했지만, 고생 좀 했지요.

 

자료 분석은 이 정도입니다.

이번 요약은 다음 몇가지로 요약될 수 있을 것 같습니다.

이상입니다. 

다음 회차는 역사적인 1엑사플롭스 시대의 시작이 될 것 같은 기대가 생기네요.

반응형