디지털 라이프 電子的生活 My Digital Life/슈퍼컴퓨터 (HPC)

제 55회 (2020년 6월) TOP500 슈퍼컴퓨터 랭킹 분석

미친도사 2020. 7. 9. 21:00

 

매년 6월엔 독일에서 열리는 ISC에서, 11월엔 미국에서 열리는 SC 행사에서 발표되는 TOP500 슈퍼컴퓨터 랭킹이 올해엔 코로나19 여파로 행사가 열리지 않아서 TOP500은 온라인으로만 발표되어 뭔가 조금은 조용하게 공개된 느낌입니다.

 

이번에도 한번 훑어보기로 합니다.

 

우선 TOP20입니다.

 

파워포인트로 작성한 건 보기가 힘들어서 TOP500.org 사이트에 간략 버전 발췌해서 봅니다.

붉은 글씨가 이번 회차에 새롭게 등재된 시스템들입니다.

Rank System Cores Rmax
(TFlop/s)
Rpeak (TFlop/s) Power
(kW)
1 Supercomputer Fugaku - Supercomputer Fugaku, A64FX 48C 2.2GHz, Tofu interconnect D, Fujitsu
RIKEN Center for Computational Science
Japan
7,299,072 415,530.0 513,854.7 28,335
2 Summit - IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM
DOE/SC/Oak Ridge National Laboratory
United States
2,414,592 148,600.0 200,794.9 10,096
3 Sierra - IBM Power System AC922, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM / NVIDIA / Mellanox
DOE/NNSA/LLNL
United States
1,572,480 94,640.0 125,712.0 7,438
4 Sunway TaihuLight - Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway, NRCPC
National Supercomputing Center in Wuxi
China
10,649,600 93,014.6 125,435.9 15,371
5 Tianhe-2A - TH-IVB-FEP Cluster, Intel Xeon E5-2692v2 12C 2.2GHz, TH Express-2, Matrix-2000, NUDT
National Super Computer Center in Guangzhou
China
4,981,760 61,444.5 100,678.7 18,482
6 HPC5 - PowerEdge C4140, Xeon Gold 6252 24C 2.1GHz, NVIDIA Tesla V100, Mellanox HDR Infiniband, Dell EMC
Eni S.p.A.
Italy
669,760 35,450.0 51,720.8 2,252
7 Selene - DGX A100 SuperPOD, AMD EPYC 7742 64C 2.25GHz, NVIDIA A100, Mellanox HDR Infiniband, Nvidia
NVIDIA Corporation
United States
272,800 27,580.0 34,568.6 1,344
8 Frontera - Dell C6420, Xeon Platinum 8280 28C 2.7GHz, Mellanox InfiniBand HDR, Dell EMC
Texas Advanced Computing Center/Univ. of Texas
United States
448,448 23,516.4 38,745.9  
9 Marconi-100 - IBM Power System AC922, IBM POWER9 16C 3GHz, Nvidia Volta V100, Dual-rail Mellanox EDR Infiniband, IBM
CINECA
Italy
347,776 21,640.0 29,354.0 1,476
10 Piz Daint - Cray XC50, Xeon E5-2690v3 12C 2.6GHz, Aries interconnect , NVIDIA Tesla P100, Cray/HPE
Swiss National Supercomputing Centre (CSCS)
Switzerland
387,872 21,230.0 27,154.3 2,384
11 Trinity - Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Intel Xeon Phi 7250 68C 1.4GHz, Aries interconnect, Cray/HPE
DOE/NNSA/LANL/SNL
United States
979,072 20,158.7 41,461.2 7,578
12 AI Bridging Cloud Infrastructure (ABCI) - PRIMERGY CX2570 M4, Xeon Gold 6148 20C 2.4GHz, NVIDIA Tesla V100 SXM2, Infiniband EDR, Fujitsu
National Institute of Advanced Industrial Science and Technology (AIST)
Japan
391,680 19,880.0 32,576.6 1,649
13 SuperMUC-NG - ThinkSystem SD650, Xeon Platinum 8174 24C 3.1GHz, Intel Omni-Path, Lenovo
Leibniz Rechenzentrum
Germany
305,856 19,476.6 26,873.9  
14 Lassen - IBM Power System AC922, IBM POWER9 22C 3.1GHz, Dual-rail Mellanox EDR Infiniband, NVIDIA Tesla V100, IBM / NVIDIA / Mellanox
DOE/NNSA/LLNL
United States
288,288 18,200.0 23,047.2  
15 PANGEA III - IBM Power System AC922, IBM POWER9 18C 3.45GHz, Dual-rail Mellanox EDR Infiniband, NVIDIA Volta GV100, IBM
Total Exploration Production
France
291,024 17,860.0 25,025.8 1,367
16 Cori - Cray XC40, Intel Xeon Phi 7250 68C 1.4GHz, Aries interconnect , Cray/HPE
DOE/SC/LBNL/NERSC
United States
622,336 14,014.7 27,880.7 3,939
17 Nurion - Cray CS500, Intel Xeon Phi 7250 68C 1.4GHz, Intel Omni-Path, Cray/HPE
Korea Institute of Science and Technology Information
South Korea
570,020 13,929.3 25,705.9  
18 Oakforest-PACS - PRIMERGY CX1640 M1, Intel Xeon Phi 7250 68C 1.4GHz, Intel Omni-Path, Fujitsu
Joint Center for Advanced High Performance Computing
Japan
556,104 13,554.6 24,913.5 2,719
19 HPC4 - Proliant DL380 Gen10, Xeon Platinum 8160 24C 2.1GHz, Mellanox InfiniBand EDR, NVIDIA Tesla P100, HPE
Eni S.p.A.
Italy
253,600 12,210.0 18,621.1 1,320
20 Tera-1000-2 - Bull Sequana X1000, Intel Xeon Phi 7250 68C 1.4GHz, Bull BXI 1.2, Atos
Commissariat a l'Energie Atomique (CEA)
France
561,408 11,965.5 23,396.4 3,178

 

일단 TOP500에 게재된 공식 뉴스 부분입니다.

몇 회 동안 TOP10에 소소한 변화만 있었는데, 이번에 #1을 포함하여 총 네 대의 새로운 시스템이 등재되었다.

  • 후지츠의 ARM A64FX프로세서 기반의 “Supercomputer Fugaku”가 새로운 #1이다. 일본 고베에 위치한 컴퓨터 사이언스를 위한 RIKEN Center (R-CCS)에 설치되었으며 이전 K-Computer 위치이다. 이는 후지츠와 Riken와의 긴밀한 협업으로 개발되었으며, 후지츠의 Tofu D 인터커넥트를 이용한다.
    성능은 HPL 벤치마크에서 놀라운 416Pflop/s를 달성했으며, 이전 #1인 Summit 성능을 2.8배 이상 가볍게 뛰어 넘는다. 머신 러닝이나 AI 애플리케이션에 자주 쓰이는 Half Precision (16-bit) 연산에서는 피크 성능이 1,000Pflop/s (= 1Exaflop/s)를 넘어서 첫 Exa-scale 슈퍼컴퓨터라고 소개되기도 한다.
  • 6위의 HPC5는 두번째 새로운 시스템이다. Dell에서 만들고, 이탈리아의 회사 Eni S.p.A가 구축한 PowerEdge 시스템인데, 이제 유럽에서 가장 막강한 시스템이다. NVIDIA V100 가속기와 Mellanox HDR InfiniBand 네트워크로 35.5Pflop/s의 성능을 달성했다.
  • #7의 Selene은 NVIDIA DGX A100 SuperPOD로 미국의 NVIDIA 내부에 구축되었다. NVIDIA의 새로운 암페어 아키텍쳐인 A100와 Mellanox HDR InfiniBand 네트워크로 27.6Pflop/s의 성능을 달성했다
  • #9의 Marconi-100은 Top10 내의 두번째 이탈리아 시스템이다. IBM Power9 프로세서, NVIDIA V100, 듀얼 레일 Mellanox EDR InfiniBand기반의 IBM AC922 시스템이다이며, CINECA 연구 센터에 설치되었고, 성능은 21.6Pflop/s이다.

미국의 Exascale 프로젝트 중 둘이었던 IBM의 Summit과 Sierra가 2년 전에 1, 2위에 등재된 이래, 2년 만에 새로운 1위가 일본에서 나왔습니다. 작년 11월에 SC에서 후지쯔가 Riken과 함께 개발한 A64FX가 고성능 고효율 프로세서로 주목 받았는데, 이번에 그 프로세서 기반으로 초대형 시스템을 만들어 1위를 차지했습니다. 이미 이 두 조직의 협업으로 2011년 6월에 1위를 차지한 적이 있는데, 9년 만에 다시 1위 시스템을 만들어 냈네요. 꾸준히 연구 개발을 하더니, 이번에도 상당히 인상적인 제품을 만들었습니다.

 

또한 인상적인 시스템으로는 7위의 NVIDIA의 새로운 암페어(Ampere) 아키텍쳐 시스템인 DGX A100으로 구축된 Selene입니다. 두어 달 전에 암페어 아키텍쳐가 공개되면서 수년간 GPU 가속기의 최강의 자리를 지키고 있던 볼타(Volta) 아키텍쳐가 자리를 내주게 될 것을 짐작할 수 있었습니다. NVIDIA가 직접 이렇게 큰 규모의 시스템을 구축한 것도 처음인데, 앞으로 급속하게 암페어 아키텍쳐가 GPU 가속기 시장을 점유할 것으로 보입니다.

 

나머지 TOP10 시스템에 대한 TOP500측의 짧은 리뷰입니다.

  • 미국의 Summit Sierra #2, #3로 내려왔다.
  • Oak Ridge National Lab에 있는 IBM이 구축한 Summit 148.8PF/s의 성능으로 2위를 유지했다. 22 코어의 IBM Power9 CPU 2개와 6개의 NVIDIA Tesla V100 GPU를 탑재한 4,356노드로 구성되어 있다. Mellanox dual-rail EDR InfiniBand 네트워크로 연결되어 있다.
  • Lawrence Livermore National Lab Sierra 3위를 유지했다. 2위인 Sierra와 그 구성이 매우 비슷하다. IBM Power9 CPU 2개와 4개의 NVIDIA Tesla V100 GPU를 탑재한 4,320노드로 구성되어 있다. Sierra의 성능은 94.6PF/s이다.
  • 중국 NRCPC에서 개발한 Sunway TaihuLight Wuxi의 국가 슈퍼컴퓨팅 센터에 설치되었으며,  2년간 1위를 지켰고 지금은 93PF/s 4위에 위치한다.
  • NUDT에서 개발한 중국의 Tianhe-2A (Milky Way-2A)는 광조우의 국가 슈퍼컴퓨터 센터에 설치되어 있으며, 61.4PF/s 5위를 유지했다.

 

20위 안에는 우리나라 KISTI의 시스템이 2년 전에 11위로 등재되었다가 현재 17위에 등재되어 있습니다.

 

여기에서 잠깐 성능 단위를 언급해 봅니다.

 

최근 다나와에서 가장 많이 팔린다는 인텔의 10세대 데스크탑 프로세서 i5-10400 (2.9GHz, 6-core)의 성능이 278GF/s 쯤 되는 것 같습니다. 이번 500위 시스템이 1.24PF/s쯤 되니, 대략 i5-10400 데스크탑의 4,460배 쯤 되네요. 이번 1위가 416PF/s니까 500위의 335배가 좀 넘네요. 1위는 요즘 잘 나가는 데스크탑의 "150만"배쯤 되겠네요.

 

제가 서버쪽 일 처음 시작한 2000년대 초만 해도 서버랑 데스크탑 프로세서의 차이가 별로 없었는데, 이제는 차이가 아주 많이 납니다. 거기다가, 슈퍼컴 쪽은 수많은 계산 노드로 병렬 컴퓨팅을 하는 지라 점점 그 갭은 커질 것 같습니다.

 


TOP500의 성능 발전 추이입니다.

그래프 상으로는 전체 성능의 합계가 조금 상승한 것 같지만, 실제로 무려 580PF/s 가까이 상승한 겁니다. 1위 성능이 엄청난 거죠. 이번 1위 시스템이 이론 성능이 514페타플롭스로 기존 1위였던 Summit을 훌쩍 뛰어 넘었습니다. IBM와 후지쯔의 엑사스케일을 타겟으로 개발되었던 슈퍼컴퓨터가 공개된 지금, 설치가 진행 중인 걸로 알려진 Cray/HPE 시스템이 어느 정도 성능으로 나올지가 무척 궁금해 집니다. 물론 IBM과 후지쯔도 기존 시스템을 업그레이드하는 작업을 계속 할 거라 생각됩니다.

 

TOP500측에서 언급한 하일라이트 일반입니다.

전체 리스트된 성능 합계는 6개월 전에 1.65EF/s에서 이젠 2.23EF/s가 되었다. 성능 향상의 대부분은 새로운 1위인 Fugaku 슈퍼컴퓨터에 의한 것이다. 500위 시스템의 성능은 1.24PF/s, 지난 회차(1.14PF/s)보다 약간 상승했다. 새로 등재된 시스템 수는 51대 뿐이고, TOP500이 시작한 1993년 이래 최저 기록이다.

 중국이 시스템 수는 226대로 여전히 TOP500에서 지배적이다. 미국은 #2 포함해서 114대이며, 일본은 30대로 3, 프랑스 19, 독일 16대이다. 시스템 수에서는 2위지만, 성능 면에선 미국이 644PF/s로 중국의 565PF/s를 앞지른다. 일본은 극히 적은 시스템 수지만, 530PF/s를 기록하고 있다.

 

시스템 점유율은 중국 > 미국 > 일본 순서지만, 성능면에서 보면 1위 시스템을 가진 일본의 성능 점유율이 대단하죠. 수년 전 1위였던 중국의 Sunway Taihulight도 그랬고, 이번 일본의 Fugaku도 그렇고 꾸준한 연구 개발로 프로세서를 개발하여 구현했다는 것에서 좀 부럽기도 하고 그럽니다.

중국의 지배력에 이번 일본의 1위 차지로 아시아의 점유율이 댓수나 성능 모든 면에서 절반 이상이 되었습니다. 슈퍼컴이라는 게 미국의 자존심인 분야이기도 했는데, 속 좀 타겠어요.

 

TOP500의 기술 트렌드에 대한 언급입니다.

전체 리스트 중 144대가 가속기나 코프로세서를 이용하고 있고, 이 수는 6개월 전과 거의 같다. 지난 케이스와 같이, 대부분(135)의 가속기/프로세서는 NVIDIA GPU이다.

X86 프로세서 아키텍처가 500대 중 481대로 지배적이다. 이 중 인텔이 469대이고, AMD 11, Hygon이 한 대이다. ARM 프로세서는 전체 중 단 4대인데, 3대가 후지쯔의 새로운 A64FX 프로세서이며, 나머지 하나는 Marvel ThunderX2이다.

시스템 인터커넥트는 6개월 전과 큰 변화가 없다. 이더넷이 263, 인피니밴드가 150대에 쓰이고 있으며 나머지는 전용 네트워크이다. 수치상으론 이더넷이 지배적이지만, 성능면에서 471PF/s 인피니밴드의 803PF/s에 미치지 못한다. 커스텀 인터커넥트를 사용하는 슈퍼컴퓨터들의 성능은 790PF/s에 이른다.

 

가속기를 사용한 시스템은 좀 정체된 듯한 느낌입니다. 이번 1위 시스템도 순수 CPU기반의 슈퍼컴인 게 큰 영향이긴 합니다. 다만, NVIDIA의 암페어 아키텍쳐의 공개로 올 하반기부터는 GPU 가속기를 탑재한 시스템의 점유율이 증가할 것으로 예상됩니다.

프로세서는 인텔이 여전히 지배적입니다. 그 중에서도 Xeon Scalable Processor 라인업의 1세대인 Skylake가 제일 많은데, 2세대인 Cascade Lake가 생각보다 장점이 많지 않아서인지 그닥 많이 늘어나 보이지 않은 게 특이해 보입니다. 그리고, 두어대 밖에 없지만 1위를 차지한 후지쯔의 ARM 계열 프로세서인 A64FX 덕에 후지쯔 ARM의 성능 점유율이 많아진 게 눈에 띕니다.

고속 네트워크 부분에 대해서는 저렴한 10G, 25G, 40G 이더넷의 점유율이 50% 가까이 되긴 하네요. 하지만, 고성능 시스템에 대해서는 인피니밴드가 절대적으로 많습니다. 200G인 인피니밴드 HDR의 점유율이 나온지 꽤 되었는데, 아직 점유율이 낮습니다. 이를 위해서는 PCIe Gen4(4세대)가 필요한데, 가장 많이들 쓰는 인텔이 PCIe Gen4를 탑재한 제품의 출시가 많이 지연되면서 점유율을 높이지 못 하고 있네요. AMD나 Power9이 약진할 수 있는 기회인 것 같기도 한데, 좀처럼 점유율이 늘어나지 않네요. 인텔은 올 하반기 혹은 내년 초에 Gen4를 탑재한 서버 프로세서 군이 나올 것으로 예상됩니다.

 

 

제조사에 대한 TOP500의 언급입니다.

레노버(180), 수곤(68), 인스퍼(64) 등 중국의 제조사들이 전체 500중에 312대의 시스템으로 숫적으로 지배적이다. HPE 37, Cray/HPE 35대이다. 후지쯔는 13대 뿐이지만, #1 Fugaku supercomputer 덕에 478PF/s으로 성능 합계에서는 1등이다. 180대의 레노버는 합계 355PF/s 2등을 차지했다.

 

시스템 점유율이 높은 벤더 1-3위가 모두 중국 회사네요. 사실 레노버는 IBM 라인업의 이전이라 서버 시장에선 중국 회사라는 인식이 훨씬 덜하긴 하지요. 100위 내에선 HPE와 Cray/HPE가 합쳐서 약 40% 지분을 갖게 되면서 절대 강자의 모습을 보일 것으로 예상됩니다. Cray는 HPE에 합병이 되었지만, 그 상징성이 강해서인지 Cray/HPE로 표시되어 따로 관리되는 군요. 8년 전에 Cray에 합병된 제가 있던 회사는 흔적도 없이 순위에서 사라졌는데... ㅠㅠ

성능 측면에선 1위가 장땡입니다. 전체 성능 합계의 22%가 1위 성능이니 어지간한 업체가 후지쯔를 따라 잡긴 힘들 것 같습니다.

 

 

소비 전력 대비 성능을 따지는 Green500 결과에 대한 TOP500 측 언급입니다.

Green500에서 가장 에너지 효율이 좋은 시스템은 Preferred Networks에서 만든 새로운 서버 기반인 MN-3이다. 1.62PF/s 성능에 21.1Gflops/watt를 기록했다. 행렬 연산에 최적화된 MN-Core 칩으로부터 우수한 파워 효율을 낸다. TOP500 순위에서는 395에 올라 있다.


2위는 A100GPU 기반의 DGX A100 SuperPOD으로 구성된 새로운 NVIDIA Selene 슈퍼컴이다. TOP500에서는 7위에 등재되었다.

 3위는 일본의 NA Simulation에 설치된 PEZY Computing/Exascaler 시스템인 NA-1시스템이다. 18.4Gflops/watt TOP500에선 470위에 등재되었다.


Green500에서 9위는 성능 1위인 Fugaku 수퍼컴퓨터로 14.68Gflops/watt의 효율을 낸다. 이는 전력 효율 면에서 14.72Gflops/watt Summit 다음이다.

이번 회차에서 1위였던 Fugaku의 A64FX 프로세서가 작년에 소비 전력 대비 성능으로 대단히 주목을 받았는데, 대형 시스템으로 구축했더니 좀 효율이 낮아졌군요. 대신 새로 등장한 NVIDIAI의 암페어 아키텍쳐의 A100은 대규모로 구축한 Selene에서도 효율이 좋게 나왔네요. 암페어를 이용한 시스템이 당분간 큰 유행이 될 것 같습니다.

 

 

TOP500은 기본적으로 HPL이란 벤치마크를 기준으로 합니다. 그런데, 이 벤치마크도 보완의 필요가 있다고 느껴졌는지 최근에 TOP500은 또다른 성능 벤치마크인 HPCG에 대하여 언급을 종종 하고 있습니다. 그 값을 등재하는 시스템도 많아지고 있습니다. TOP500 측 언급입니다.

TOP500 순위는 High-Performance Conjugate Gradient (HPCG) 벤치마크를 포함하고 있는데, 이는 슈퍼컴퓨터 성능을 평가하는 대안으로 제공되며 HPL 측정값의 보완의 의미가 있다.

 TOP500  1위인 Fugaku 13.4HPCG-Pflops HPCG에서도 선두이다. 미국 에너지성의 시스템인 ORNL Summit LLNL Sierra HPCG벤치마크에서도 각각 2위와 3위이다. Summit 2.93 HPCG-Pflops이고 Sierra 1.80HPCG-Pflops이다. 나머지 시스템들은 모두 1 HPCG-Pflops 이하의 성능을 냈다.

 

등재된 시스템의 활용 분야는 주로 산업 분야가 제일 많은데, 중국에서 쓰는 곳이 엄청 많네요. 미국, 일본이 연구/학문 쪽으로 많고요.

 

제조사 별로 주력하는 분야도 다릅니다. 연구/학문 분야는 미국 회사인 Cray/HPE, HPE 그리고 프랑스의 Atos/Bull이 많이 하고, 산업 분야는 중국 업체들이 많이 구축하고 있네요.

우리 나라의 슈퍼컴은 지난 회차에 비해 달라진 점이 없습니다. KISTI와 기상청 4호기가 여전히 꽤나 높은 등수에 등재되어 있습니다. 기업들에서도 꽤 큼직한 시스템들을 운영하고 있는 걸로 아는데, TOP500에는 등재시키지 않는 것 같습니다.

 

이렇게 이번 6월에 발표된 TOP500 슈퍼컴퓨터 랭킹을 훑어 보았습니다. '우리나라가 막강한 시스템이 적은 게 안타깝나?' 생각해 보면 그닥 안타깝지는 않습니다. 큰 시스템을 구축하는 그 차체가 목적이 되어서는 안 되지요. 그 막강한 시스템들을 잘 활용할 연구/학술/기업 등의 기관들이 활발한 활동을 하면 큰 시스템 구축은 따라가는 것이니까요. 후자에 언급한 부분이 활발하지 않은 것 같아 보이는 게 아쉽지요.

 

후지쯔의 ARM CPU 기반의 새로운 프로세서로 1위한 점, NVIDIA의 막강한 암페어 아키텍쳐의 등장, 인텔의 부진(여러모로 영향이 있지요) 등이 이번 회차의 특이한 점이었다고 마무리하며 이 글도 마무리합니다.

 

긴 글 읽어 주셔서 감사합니다~

반응형