🖥️ GPU

A100 VS H100

date
May 31, 2025
slug
h100
author
status
Public
tags
GPU
H100
summary
GPU 비교
type
Post
thumbnail
category
🖥️ GPU
updatedAt
May 31, 2025 10:06 AM
엔비디아(NVIDIA)의 A100과 H100 GPU는 모두 데이터센터, 인공지능(AI) 훈련 및 고성능 컴퓨팅(HPC) 워크로드를 위해 설계된 최상위 모델입니다. 두 GPU 모두 엄청난 성능을 자랑하지만, 출시 시기, 아키텍처, 그리고 기술적 특징에서 중요한 차이가 있습니다.

주요 비교 포인트

항목
NVIDIA A100 (Ampere 아키텍처)
NVIDIA H100 (Hopper 아키텍처)
출시 시기
2020년
2022년
아키텍처
Ampere
Hopper (새로운 세대)
제조 공정
TSMC 7nm
TSMC 4N (약 5nm)
트랜지스터
약 540억 개
약 800억 개
메모리
40GB 또는 80GB HBM2e
80GB 또는 94GB HBM3
메모리 대역폭
최대 2 TB/s
최대 3.35 TB/s
Tensor Cores
3세대 Tensor Cores
4세대 Tensor Cores, Transformer Engine
FP32 성능
약 19.5 TFLOPS (SPARCITY 적용 시 312 TFLOPS)
약 60 TFLOPS (SPARCITY 적용 시 2000 TFLOPS 이상)
FP64 성능
약 9.7 TFLOPS
약 30 TFLOPS
FP8 지원
미지원
지원 (특히 LLM 추론에 유리)
NVLink 대역폭
600 GB/s
900 GB/s
PCIe 지원
PCIe Gen4
PCIe Gen5
MIG 지원
1세대 MIG (최대 7개 인스턴스)
2세대 MIG (최대 7개 인스턴스, 향상됨)
TDP (전력 소모)
약 400W
약 700W
가격 (대략)
2,700만원 ~ 2,900만원 대
5,000만원 ~ 5,400만원 대
주요 특징
대규모 AI 및 데이터센터 워크로드에 적합
초고성능 AI (특히 대규모 언어 모델), HPC에 최적화

주요 차이점 상세 설명

  1. 성능 향상:
      • H100은 A100 대비 종합적인 컴퓨팅 성능에서 3배에서 6배까지 향상된 성능을 제공합니다. 특히 FP32 및 FP64 연산에서 약 3배의 성능 향상을 보입니다.
      • AI 훈련 속도: H100은 A100 대비 최대 2.4배 더 빠른 훈련 처리량을 제공합니다 (혼합 정밀도 사용 시).
      • AI 추론 속도: H100은 Transformer Engine과 늘어난 메모리 대역폭 덕분에 A100보다 1.5배에서 2배 더 빠른 추론 성능을 보입니다. 특히 대규모 언어 모델(LLM)의 추론에서 A100 대비 최대 30배까지 빠른 성능을 보여준다는 보고도 있습니다.
      • FP8 지원: H100의 가장 큰 특징 중 하나는 FP8(8비트 부동소수점) 연산을 네이티브로 지원한다는 것입니다. 이는 메모리 사용량을 줄이고 특히 트랜스포머 기반 모델(LLM)의 성능을 크게 향상시킵니다.
  1. 아키텍처 및 제조 공정:
      • A100은 Ampere 아키텍처를 기반으로 하며 TSMC 7nm 공정으로 제작되었습니다.
      • H100은 더 새로운 Hopper 아키텍처를 기반으로 하며 TSMC 4N (약 5nm) 공정으로 제작되어 더 많은 트랜지스터를 집적하고 효율성을 높였습니다.
  1. 메모리 및 대역폭:
      • H100은 A100의 HBM2e보다 더 빠른 HBM3 메모리를 사용하며, 이로 인해 메모리 대역폭이 최대 3.35 TB/s로 A100(2 TB/s)보다 훨씬 높아졌습니다. 이는 대규모 데이터셋 처리 및 모델 학습에 매우 중요합니다.
  1. 연결성:
      • H100은 PCIe Gen5를 지원하여 CPU와의 데이터 전송 속도를 높였고, NVLink 4.0을 통해 GPU 간 통신 대역폭도 A100(600GB/s)보다 훨씬 빠른 900GB/s로 향상되었습니다. 이는 여러 GPU를 연결하여 사용하는 대규모 시스템에서 병목 현상을 줄여줍니다.
  1. 전력 소모 및 발열:
      • 성능이 향상된 만큼 H100의 TDP(열 설계 전력)는 A100(400W)보다 높은 약 700W입니다. 이는 더 많은 전력을 소모하고, 이에 상응하는 강력한 냉각 시스템이 필요하다는 것을 의미합니다. 하지만 전력당 연산 능력은 H100이 훨씬 뛰어납니다.
  1. 가격:
      • H100은 A100보다 훨씬 최신 기술이 적용되었고 성능이 뛰어나기 때문에 가격도 A100보다 약 2배 가까이 비쌉니다. (A100: 2천만원대 후반, H100: 5천만원대 초중반)

어떤 GPU를 선택해야 할까?

  • A100: 여전히 매우 강력한 GPU이며, 중급 수준의 AI 모델 훈련 및 추론, 일반적인 HPC 작업에 충분히 적합합니다. 가성비를 고려하거나, 예산이 제한적일 때 좋은 선택이 될 수 있습니다.
  • H100: 최신 대규모 언어 모델(LLM) 훈련, 초대규모 AI 모델 추론, 그리고 최고 수준의 HPC 워크로드에 최적화되어 있습니다. 최고의 성능과 효율성을 추구하며, 예산이 충분한 경우 선택하게 됩니다. 특히 트랜스포머 아키텍처 기반의 모델을 다루는 경우 H100의 Transformer Engine과 FP8 지원은 압도적인 이점을 제공합니다.
요약하자면, H100은 A100의 모든 측면에서 발전된 차세대 GPU로, 특히 AI, 그 중에서도 대규모 언어 모델 분야에서 혁신적인 성능 향상을 가져왔습니다. 하지만 그만큼 가격과 전력 소모도 높아 사용 목적과 예산에 따라 적절한 선택이 필요합니다.