디지털 라이프 電子的生活 My Digital Life/슈퍼컴퓨터 (HPC)

AMD/NVIDIA/Intel 최신 AI 가속기 스펙 비교 (2025년 4월 기준)

미친도사 2025. 4. 2. 19:00

요새는 가히 AI시대라 할 만합니다.

특히나 2022년 말에 ChatGPT가 세상에 등장하고 나서는 좀 과장해서 어느 산업이든 AI를 빼고는 얘기할 수 없는 상태인 것 같습니다.

그 중에서도 NVIDIA의 최상위 GPU H100 AI용 가속기로는 최고 인기 상품입니다.

서버용 부품 중에 역대 이런 인기 아이템이 있었나 싶을 정도입니다.

 

NVIDIA가 디스플레이 용도의 GPU를 연산 용도로 사용하는 GPGPU(General Purpose GPU, 일반 용도의 GPU)로 공개한 선두주자이긴 합니다만, 디스플레이용 GPU AMD와 인텔 역시 만듭니다.

NVIDIA가 십수년 전부터 CUDA라는 GPGPU 소프트웨어 패키지로 열을 올릴 때, 또 하나의 그래픽 강자인 AMD는 구색 맞추는 수준의 GPGPU 라인업을 내왔고, 인텔은 자기네 x86 CPU 기술에 집착한 가속기로 폭망하기도 했습니다. (막강 인텔이 이 때부터 분위기가 안 좋아진 것 같긴 합니다).

 

그러다가 딥러닝 광풍이 불면서 AMD 역시 이 GPGPU 시장에 집중하기 시작했고, 인텔 역시 뭔가 해보려고 안간힘을 쓰기 시작했습니다. ChatGPT 등장 직후 NVIDIA에서는 최대 히트작인 H100이 나왔고, AMD와 인텔 역시 고성능 GPU를 내놓고 시장에서 홍보를 하고 있습니다.

 

NVIDIA H100

 

AMD Instinct MI300X

 

Intel Gaudi3

 

AMD 자료를 보다가 AMD 가속기의 성능이 좋다고 하는 근거를 좀 찾아보고자 NVIDIA 자료와 비교하기 위해 표로 만들어 봤습니다.

 

이 표를 근거로 이해를 해보도록 하겠습니다.

Model Manufacturer AMD AMD NVIDIA NVIDIA NVIDIA Intel
Model Name MI300X MI325X H100 SXM H200 SXM B200 SXM Gaudi 3
Release 2023 12 2024 10 2023 3 2024 11 2024 12 2024 9
Processing
Units
Compute Units 304 304       8
Streaming Processor 19,456 19,456 16,896 16,896 33,792  
Matrix Core 1,216 1,216 528 528 1,056 64
Memory Type HBM3 HBM3E HBM3 HBM3e HBM3e HBM2e
Capacity (GB) 192 256 80 141 192 128
Bandwidth (TB/s) 5.3 6 3.35 4.8 8 3.7
HPC 성능
(TFLOPS)
FP64 81.7 81.7 33.5 33.5 31.04 -
FP32 163.4 163.4 66.9 66.9 62.08 14.3
FP16     133.8 133.8    
AI 연산 성능
(TFLOPS
또는
TOPS,
w/ sparsity)
TF32 1307.4 1307.4 989.4 989.4 2250 -
FP16 2614.9 2614.9 1978.9 1978.9 4500 -
BF16 2614.9 2614.9 1978.9 1978.9 4500 1678
FP8 5229.8 5229.8 3957.8 3957.8 9000 1678
INT8 5229.8 5229.8 3957.8 3957.8 9000 -
FP4         18000  
Power TDP (W) 750 1000 700 700 1000 900
Interconnect Technology Infinity Fabric Infinity Fabric NVLink NVLink NVLink Ethernet
Bandwidth 896 GB/s total 896 GB/s total 900GB/s 900GB/s 1.8TB/s 1200 GB/s
bidirectional

AI연산 성능의 단위는 부동소수점 연산(FP, TF 따위)의 경우 Tera-FLOPS, 정수 연산(INT)의 경우 Tera-OPS
  OPS=Operations Per Second
초당 연산 횟수
  FLOPS=Floating-point Operations Per Seconds
초당 부동소수점 연산 횟수

 

NVIDIA H100, H200, AMD MI300X, MI325X는 각각 살짝 메모리만 높인 모델입니다.

출시 시기는 NVIDIA H100이 가장 앞서고, AMD, 인텔 순서입니다.

 

전체적으로 보면 NVIDIA H100/H200에 비해 AMD MI300X/MI325X가 연산 성능은 더 좋은 게 맞네요. ( 30%)
최근에 LLM 같은 경우는 연산 정밀도를 낮추면서 메모리 사용량은 줄이고, 속도를 높이는 쪽으로 한다고들 하니 장점이 있겠습니다.

 

다만, 곧 공급이 시작될 B200의 경우는 일반 연산 성능은 오히려 이전 세대인 H100/H200보다 낮추면서, AI 성능은 대폭 높였습니다.
특히나 연산 정밀도를 더 낮추는 최근 LLM 추세에 맞춰 FP4 AI 연산까지 지원하면서 성능을 높이는 시도를 했습니다.

 

인텔의 가우디3는 출시도 가장 늦은데, 사양만으로 봐도 처참한데요. 사양에는 언급 안 된 뭔가 있는 걸까요?
GPU
간의 연결 부분에 대해서는 AMD, NVIDIA가 각각 전용 기술을 사용한 데에 비해 인텔은 이더넷 200G를 이용했다는 부분이 특이합니다.
특이하긴 한데 전체 성능이 별로라 그닥 매력이 없어 보이네요.
🤔
가우디3에 채택된 기술 전체가 그냥 NVIDIA, AMD의 한 세대 전 수준인 것 같습니다.

 

NVIDIA의 강점이라 하면 십수년간 세상에 퍼뜨려온 CUDA와 그 소프트웨어 환경이라 해왔는데,
Top500
의 상위권에 등재되는 대형 슈퍼컴에 AMD로 만든 시스템도 많다 보니, 소프트웨어 지원도 많이 좋아진 것 같습니다.

 

특히나 MI300X, H100 기준으로 보면 AMD의 전력 대비 성능 또한 NVIDIA에 비해 좋다고 볼 수 있겠습니다.
MI325X
Peak 1000W로 표기되지만, NVIDIA H100 700W는 실제로 Peak 40~50% 이상 더 소비되기 때문에 단순히 AMD가 전기를 더 먹는다고 하기는 어렵습니다.
(NVIDIA
의 애매한 표기 때문에 예전에 시스템 설계할 때 엄청 고생했습니다.
😤)

(AMD는 왜 TDP를 안 쓰고 Peak를 써놔서 헷갈리게 하는지… 🤔)

 

NVIDIA 가속기의 대체를 고려한다면, 이런 시장 흐름을 이해하면 좋을 것 같습니다.

참고하세요.

반응형