안녕하십니까, 미친도사입니다.
오래간만에 읽을거리 하나 준비했습니다.
매년 6월과 11월에 발표되는 슈퍼컴퓨터 랭킹인 TOP500 리스트가 이번에도 어김없이 이번 주 월요일인 6월 28일에 발표되었습니다. 지난 2020년 11월에 발표된 56회 순위는 제가 어쩌다가 글을 못 썼네요. 1년 만의 관련 포스팅입니다.
6월엔 독일에서 행사가 이뤄지는데, 이번에도 온라인으로만 행사가 진행되고 있습니다.
11월 미국 행사는 예전처럼 오프라인 행사로 개최될 것으로 알려져 있습니다.
늘 그렇듯이 가볍게 읽으시면 될 것 같습니다. 큰 화제거리는 없지만, 그 안에 소소하게 흥미로운 점들이 있네요.
슬라이드 쇼 그림이 작으면 클릭하면 확대하여 볼 수 있을 겁니다.
우선 TOP20입니다.
10위권 안에는 큰 변화는 없지만, 5위에 HPE/Cray의 Shasta 시스템이 진입했습니다. 20위권까지 보면 후지쯔와 HPE가 각각 2대의 시스템을 등재시켰네요.
미국의 HPC로 연구를 하는 국가 연구소들을 중심으로 수년 전부터 진행해오던 대형 엑사스케일 프로젝트 3개 중 마지막이 드디어 공개된 것 같습니다. 엑사스케일 프로젝트라는 것은 성능이 1 Exa-flops를 목표로 하는 초대형 슈퍼컴퓨터 프로젝트를 일컫는 말입니다.
IBM이 Summit과 Sierra로 먼저 공개했었고, Cray가 내부 코드명 Shasta로 진행되던 것이 Perlmutter란 시스템명으로 등장했습니다.
Shasta란 프로젝트는 제가 있을 때에도 바로 출하할 수 있을 정도의 완성도였던 것 같은데, 이제서야 세상에 나왔네요.
Cray의 XC 시리즈와 비슷하게 Shasta란 것이 상당히 유연한 구조라 AMD 프로세서 + NVIDIA A100 GPGPU 조합의 구성으로 등장했습니다.
등장은 했지만, 3년 전에 등장한 IBM Summit과 Sierra에 못 미치는 성능인데, 아마도 다음 순위 때에 확장하여서 엄청 높은 결과치로 다시 돌아올 것 같습니다.
19위에 올린 시스템 역시 Shasta 기반인 것 같습니다.
Cray는 예전부터 전용 고속 네트워크 개발에도 신경을 쓰고 있었는데요, 이전에 사용하던 Aries 네트워크는 인텔에 거액 받고 팔았고, 새로운 Slingshot이란 고속 네트워크를 Shasta 플랫폼에 탑재를 했나 봅니다. 제가 있을 때에 Slingshot에 대한 얘기가 여기저기서 보이더니, 이번에 제대로 구현되었나 봅니다. 다들 InfiniBand HDR에 집중할 때 Cray는 새로운 걸로 시장에 뛰어드네요.
현재 1위 시스템을 갖고 있는 후지쯔는 일본의 산업 기술 총합 연구소(AIST)에 꽤 큰 장비를 공급했네요.
일본에서 HPC를 크게 쓰는 대표적인 연구소이고 츠쿠바 시에 있는 곳입니다. 저도 여기에 자그마한 클러스터 설치하러 간 적 있네요. 아는 곳이라 괜히 좀 더 반갑습니다. ㅎㅎ
1위 Fugaku와 새로 추가된 13위는 자체 개발인 ARM64 계열인 A64FX인 반면에 AIST에 들어간 장비는 Xeon Icelake + NVIDIA A100 조합이군요.
확실히 큰 시스템은 HPE/Cray, Fujitsu, IBM이 강세이긴 합니다. HPC에서는 상대적으로 약세라 치던 Dell이 꾸준이 상위권에 한 두대 넣는 게 주목하게 됩니다.
다음은 이번 TOP500 순위와 함께 공개된 뉴스들을 섹션 별로 번역해보았습니다.
이 부분에서는 딱히 부연 설명은 없고 뒤쪽의 슬라이드에서 필요한 내용은 언급하겠습니다.
TOP500이 처음 발표된 이후의 성능 추이입니다.
선형적으로 증가하다가 2008년에 한번 증가세가 꺾인 이후에 또 선형적으로 증가하는 중입니다. 이제는 500위가 약 1.5PF/s입니다. 불과 2년 전인 2019년 6월 차트 500위가 1.0PF/s였는데, 500위 성능이 2년 만에 50%가 높아졌습니다.
이제부터는 각종 통계 자료를 만들어 보았습니다. 기본적으로 TOP500 리스트를 기반으로 재구성한 것입니다.
우선 국가별 통계
시스템 대수는 중국이 압도적이긴 합니다만, 지난 회차에 비해 많이 줄어들었습니다.
대외적으로 공개를 안 하는 건지, 구축이 잠잠해진 것인지는 모르겠습니다.
미국은 근소하게 증가했고요. 그렇지만, 역시나 미국은 큰 시스템이 많아서 성능 점유율 측면에서는 중국을 압도합니다.
또 상대적으로 7%의 시스템 점유율인 일본이 성능 쪽에서는 중국보다도 높은 점유율을 보입니다.
TOP500 순위에서 압도적인 1위인 Fugaku 보유국답습니다. Fugaku는 2위인 Summit보다 3배가량 뛰어난 성능입니다.
예전에는 북미가 압도적이었지만, 중국의 등장과 일본 덕에 아시아의 지분이 엄청 높습니다.
순위에서 우리 나라만 추려보았습니다.
얼마 전에 검수가 끝난 기상청 5호기가 23, 24위에 나란히 등재되었습니다.
기상청은 큰 규모의 시스템을 2개로 나누어서 쓰기 때문에 항상 2개가 나란히 등재됩니다. 두 시스템을 합친 성능이라면 대략 10위쯤 되는 규모입니다.
기술 관련 내용 다뤄봅니다.
제가 이번에 정리하면서 눈에 띄는 점을 각 분야별로 하나씩 꼽아 보았습니다.
다른 것들은 해당 슬라이드 부분에서 언급하기로 하고, 클라우드 안에 구축된 HPC 클러스터는 짚고 넘어가 봅니다.
TOP500 공식 뉴스에도 언급이 되었는데, 이번에 처음으로 클라우드 안에 구축된 HPC 클러스터들이 순위에 진입했습니다. 그것도 규모가 상당해서 20위권과 41위입니다.
마이크로소프트 Azure 안에 구축된 AMD EPYC + NVIDIA A100 GPGPU 기반의 클러스터가 20위권에 4대를 나란히 올렸습니다. 물리적인 서버 환경과는 다르게 클라우드 상에서 계산 노드를 필요에 따라 생성했다가 지우기가 자유로워서 굉장히 매력적이다 생각했는데, MS와 AWS가 작정하고 이번에 도전한 것 같습니다.
앞으로 소규모 HPC 클러스터의 클라우드 상의 구축이 본격적으로 시작하리라 생각해 봅니다.
전체 시스템 중에서는 역시나 인텔 프로세서가 86% 정도 점유율로 압도적으로 많이 쓰였습니다.
그렇지만, 성능 쪽에서 보면 몇 대 없는 Fujitsu의 A64FX 프로세서가 1위 Fugaku 덕분에 ‘기타’ 쪽 프로세서 쪽 점유율이 엄청 높음이 특이합니다.
인텔 진영에서는 최근에 등장한 IceLake 프로세서도 슬슬 눈에 띄네요. Xeon Scalable Processor Gen3로 x3xx 프로세서로 명명되는 IceLake 프로세서는 인텔에서는 처음으로 PCI Express Gen4가 탑재되었고, 이런저런 점들이 개선되어서 본격적으로 PCI Express Gen4 장치들로 인해 성능향상이 예상됩니다.
이번 목록에서 가장 흥미로운 것 중 하나라면, 유독 AMD 프로세서의 약진이라 생각됩니다. 지난 랭킹에서는 13개의 시스템에서만 쓰이던 AMD 프로세서가 이번엔 전체 중에 거의 10%에 근접하는 점유율을 보이고 있습니다.
개인적으로는 이게 인텔의 새로운 CPU 출시가 늦어지면서 생긴 문제라 생각하는데요, 서버용 CooperLake부터 PCI Express Gen4가 쓰이기로 되었는데, 이게 출시 취소되고 IceLake는 1년 후에나 나오다 보니 InfiniBand HDR 및 NVIDIA의 암페어 아키텍처 기반의 A100 등을 제대로 쓸 수 있는 프로세서가 IBM의 Power9과 AMD의 EPYC 밖에 없었던 것이죠. Power9보다는 같은 x86-64 기반인 AMD EPYC이 NVIDIA의 파트너가 될 수밖에 없었을 겁니다. NVIDIA가 A100 전용 시스템으로 AMD EPYC을 채택한 것을 보면, 어찌 보면 GPU 분야에서의 가장 큰 경쟁자인 NVIDIA와 AMD가 서로의 상생을 위해 협업한 것이 매우 흥미롭습니다.
Summit과 Sierra를 통해 IBM에서 굉장히 의욕적으로 소개한 Power9은 생각보다 힘을 못 쓰는 것 같네요. 이번 순위에서 NVIDIA A100을 탑재한 IBM Power9 기반의 시스템이 소개되었을 법한데, 뭔가 문제가 있는지 한 대도 없는 것도 재밌네요. 다음 번 순위에서 찾아볼 포인트 중 하나가 되겠네요.
가속기의 사용 비율은 크게 변화하지는 않았습니다.
다만, 지난 순위에서는 얼마 보이지 않던 NVIDIA의 암페어 아키텍처가 상당히 많이 등장했습니다.
놀랍게도 암페어의 코어당 성능이 볼타에 비해 거의 2배가 되면서 성능면에서 굉장히 매력적인 모습입니다.
볼타 등장 당시에도 상당했는데, 암페어의 강세는 당분간 계속 될 것 같습니다.
HPC를 구성하는 네트워크는 여전히 이더넷이 많은 점유를 하고 있긴 합니다.
하지만, 성능 측면에서는 인피니밴드가 역시나 강세고요, 그 중에서도 200Gbps 대역폭의 HDR가 증가가 가속화되고 있습니다. 발표된 것은 수년이 지났지만, PCI Express Gen4의 대중화가 늦어지면서 증가세가 느렸는데, AMD EPYC의 증가와 이제부터는 인텔 진영에서도 채택할 수 있어 급격히 증가할 것으로 예상됩니다.
200Gbps라니! 초당 25GB/s의 속도입니다. 어휴. 어마어마하죠.
인피니밴드 자료를 찾다 보니, 이미 멜라녹스 쪽에서 차세대 인피니밴드 규격인 NDR 제품 소개가 있길래 로드맵을 찾아보았습니다. NDR은 400G에요. 현재 PCI Express Gen4의 최고 대역폭이 HDR(200G)을 커버할 수 있는 건데, NDR은 Gen5를 지원할 건지 궁금하네요.
확실히 HPC 분야가 성능과 관련한 기술의 총집약체인 것이 새삼스럽게 느껴집니다. 재미있습니다!
업체별 점유율을 보면 Lenovo의 약진이 눈에 띕니다.
물론 100위까지의 대형 HPC의 경우에는 여전히 Cray를 합병한 HPE가 절대 강자이긴 합니다.
앞에 뉴스에서도 언급되었는데, Inspur, Sugon, Huawei 등의 중국 내수 위주의 업체의 수량이 줄어들고 있는 것도 특이합니다.
국내에선 ‘그 회사도 컴퓨터 장사해?’라고 생각할 수 있는 일본 후지쯔나 NEC도 꾸준히 일본 내에서 구축하고 있는 것 보면 예전에 서버 시스템 개발/제조/판매했던 회사에 있었던 저는 좀 부럽네요.
성능 면에서는 전체 시스템 수의 37%인 Lenovo도 지분이 확 줄어듦을 볼 수 있습니다. 역시 HPE(+Cray)가 지분이 높아지긴 했는데,
1위를 갖고 있는 후지쯔가 원체 막강하네요. 중국도 그렇고, 일본도 그렇고 이런 분야에서 연구 투자해서 성과를 내는 부분이 근사해 보입니다.
저~기 우리네 국가 연구소들은 뭔가 하고 있는 거 맞죠?
HPC가 극도의 병렬화를 통해 구현되는 현재, 전력 역시 큰 고민거리 중 하나입니다. 그래서, 전력 효율 부분도 점차 의미가 높아지는 것 같습니다.
이번 Green500 순위에는 10위 권 내에서는 모두 가속기를 이용한 시스템입니다.
1위는 일본의 전용 가속기를 사용한 시스템이고, 나머지 9대는 모두 NVIDIA의 A100을 채택한 시스템이네요.
효율이 정말 좋긴 좋은가 봅니다. 점차 A100을 채택하는 곳이 늘어나겠어요.
TOP500 순위는 오랫동안 HPL이란 벤치마크 실행값을 기반으로 해왔습니다. 이 벤치마크는 Double precision (배정밀도, 이하 DP) 행렬 연산 기반입니다.
이걸 보완하기 위한 HPCG 벤치마크도 함께 취합하기 시작했습니다. 물론 모든 시스템이 이 값을 제출하지는 않고 있긴 합니다.
그리고, HPC라는 개념에 머신러닝/딥러닝 (이하 ML/DL) 개념이 투영되기 시작하면서 그 범위가 넓어지는 것 같은데요, 이게 기존 HPC 연산과 ML/DL 연산이 성격이 완전히 다릅니다. ML/DL은 half precision 연산에 포커스가 맞춰집니다. ML/DL 전용 시스템을 DP 연산까지 할 수 있는 구성을 할 필요는 없는 거지요. 그래서, ML/DL을 위한 새로운 연산 성능 벤치마크가 등장한 것이 HPL-AI입니다.
그래서, 성능이 몇 테라플롭스라고 하는 문서를 봤다면, 그것이 전통적인 HPC 연산인 DP 기반의 연산을 말하는 것인지, ML/DL 성능을 말하는 것인지 자세히 들여다 봐야 할 필요가 있습니다. ML/DL로 얘기하고 있는데, HPC 연산으로 이해하고 있으면 그 규모가 말도 안 되게 차이가 생겨 버리기 때문입니다.
응용 분야를 업체별, 국가별로도 한번 분류해 보았습니다.
시스템 대수가 제일 많은 레노버는 산업 분야에서 많이 쓰이고 있고, 연구 부분은 HPE가 강세입니다. 이 성향은 국내에서도 비슷한 것 같지요?
국가별 결과를 보면 산업 분야에서는 중국, 미국 이외에 네덜란드, 아일랜드가 많이 쓰이고 있는 게 특이합니다.
이렇게 해서 2021년 6월 28일에 발표된 57회차 TOP500 수퍼컴 순위를 훑어보았습니다. 충격적인 결과는 없지만, 소소한 재미가 많은 순위였습니다. 나름 업계 흐름도 짐작해볼 수 있었고요.
여러분도 재밌게 읽으셨으면 좋겠네요.
긴 글 읽어주셔서 감사합니다.
'디지털 라이프 電子的生活 My Digital Life > 슈퍼컴퓨터 (HPC)' 카테고리의 다른 글
Lustre 파일 시스템 스터디 중 잡다한 이야기 (1) | 2022.04.14 |
---|---|
제 58회차 TOP500 슈퍼컴퓨터 랭킹 분석 (0) | 2021.11.18 |
제 55회 (2020년 6월) TOP500 슈퍼컴퓨터 랭킹 분석 (2) | 2020.07.09 |
NGC(NVIDIA GPU Cloud)를 사용하기 위한 환경 설정하기 (0) | 2020.06.03 |
2019/11 제 54회 TOP500 슈퍼컴퓨터 랭킹 리뷰 (0) | 2019.12.03 |