[GPU] NVIDIA Blackwell GPU
목차
Blackwell 아키텍처 개요
전체 제품 라인업
데이터센터/엔터프라이즈 GPU
- B100: 기본 데이터센터 GPU
- B200: 고성능 데이터센터 GPU (더 높은 TDP, 우수한 성능)
- HGX B200: 8개 GPU가 통합된 보드
- NVL72: 72개 GPU가 장착된 랙 규모 시스템
소비자/게이밍 GPU (RTX 50 Series)
- GeForce RTX 5080: GB203 GPU 기반
- GeForce RTX 5070: GB205 GPU 기반
전문가용 GPU (RTX PRO)
- RTX PRO 6000 Blackwell: 96GB VRAM (이전 Ada: 48GB)
- 메모리 대역폭이 거의 2배 증가
- 코어 개수 및 계산 성능 대폭 향상
주요 제조 특징
- 제조공정: TSMC 4NP
- 메모리 기술: GDDR7
- 발표: 2024년 3월 (GTC 2024)
B200 상세 사양
기본 하드웨어 사양
| 항목 | 사양 |
|---|---|
| 트랜지스터 | 208억 개 |
| 제조공정 | TSMC 4NP |
| 메모리 | 192GB HBM3e |
| 메모리 대역폭 | 8TB/s |
| CUDA 코어 | 16,896개 |
| 텍스처 유닛 | 528개 |
| 기본 클록 | 1665 MHz |
| 부스트 클록 | 1837 MHz |
아키텍처 특징
듀얼-다이 설계
- 2개의 GPU 칩이 1개 패키지로 통합
- 칩 간 고대역폭 인터커넥트: 10TB/s
- 이를 통해 192GB 전체를 두 칩이 효율적으로 활용
GPU 수량별 성능
| 구성 | 성능 | 용도 |
|---|---|---|
| 단일 B200 | 최대 20 페타플롭스 (sparse-FP4 AI) | 개별 학습/추론 |
| DGX B200 (8개) | FP8: 72 PF, FP4: 144 PF | 대규모 모델 학습 |
이전 세대 대비 성능 향상
- 트레이닝: DGX H200 대비 3배 향상
- 추론: DGX H200 대비 15배 향상
성능 지표 이해
페타플롭스(PF)란?
FLOPS = Floating Point Operations Per Second (초당 부동소수점 연산 수)
단위 순서
| 단위 | 약자 | 크기 |
|---|---|---|
| 기가플롭스 | GF | 10억 연산/초 |
| 테라플롭스 | TF | 1조 연산/초 |
| 페타플롭스 | PF | 1000조 연산/초 |
20 페타플롭스의 의미
- 20 PF = 20,000조 연산/초
- 고성능 GPU (RTX 4090): ~1.5 TF = 0.0015 PF
- B200은 RTX 4090의 약 13,000배 강력함
실제 비교
- 일반 PC가 1초에 1개 계산 → B200은 같은 시간에 20,000조 개 계산
- 일반 PC로 같은 일을 하려면 약 600억 년 소요
- 세계 상위 슈퍼컴퓨터들도 수십~수백 PF 수준
실제 의미
B200의 20 PF는 매우 복잡한 AI 모델을 실시간으로 처리할 수 있다는 뜻입니다.
- 수천억 개 파라미터를 가진 대규모 언어모델(LLM) 학습 가능
- 일반 PC로는 불가능한 규모의 연산 실현
대역폭 구조
계층별 대역폭
text
메모리 (VRAM) ↔ 칩
↓ 8TB/s
↓
칩 간 인터커넥트
↓ 10TB/s (듀얼-다이 내부)
↓
NVLink (GPU 간)
↓ 1.8TB/s (GPU당)상세 설명
1. 메모리 ↔ 칩 대역폭
- 8TB/s (192GB HBM3e)
- GPU 칩이 자신의 메모리에 접근하는 속도
- 메모리 인터페이스: 4096-bit
2. 칩 간 인터커넥트 (듀얼-다이 내부)
- 10TB/s
- 같은 패키지 내 2개 칩 연결
- 메모리 대역폭(8TB/s)보다 더 빠름 → 칩 간 통신이 병목이 되지 않도록 설계
3. GPU 간 NVLink
- 1.8TB/s (양방향) per GPU
- 여러 GPU를 연결할 때 사용
- 메모리 대역폭보다 느림 → 멀티 GPU 환경에서 병목 가능
설계 의도
B200의 대역폭 구조는 계층마다 하위 계층보다 빠르거나 같게 설계되어 있습니다. 이를 통해 각 계층이 병목이 되지 않고 전체 시스템이 효율적으로 작동합니다.
NVLink 상세 설명
NVLink란?
NVLink는 GPU 간의 고속 통신을 위한 물리적 **통신 선로(Lane)**입니다.
계층 구조
text
NVLink (개별 케이블/선로)
↓
NVSwitch (버스 - 여러 선로를 통합)
↓
GPU들 (버스에 연결된 장치들)NVLink 5세대 (Blackwell) 사양
| 항목 | 사양 |
|---|---|
| GPU당 연결 수 | 18개 |
| 연결당 대역폭 | 100 GB/s (양방향) |
| GPU당 총 대역폭 | 1.8 TB/s |
| NVSwitch 포트 | 64개 |
단위 정확성
- 1.8 TB/s = 테라바이트/초
- = 14.4 Tb/s = 테라비트/초
- TB와 Tb는 다른 단위 (1 TB = 8 Tb)
성능 지표
단일 GPU 연결
- 고정 대역폭: 1.8TB/s (GPU당)
- GPU 간 차이 없이 동일
- 양방향 전송 가능
멀티 GPU 환경 (GB200 NVL72 기준)
- 72개 GPU 전체 연결 시 총 대역폭: 130TB/s
- 하지만 한 GPU ↔ 다른 GPU 통신은 여전히 1.8TB/s 제한
NVLink의 역할
NVLink는 버스의 "차선(Lane)"처럼 작동합니다:
text
버스 시스템 GPU 시스템
──────────── ──────────
차선 = NVLink
교차로 = NVSwitch
자동차 = 데이터NVSwitch 이해하기
NVSwitch란?
NVSwitch는 여러 NVLink를 연결하여 고속 버스(Bus) 역할을 하는 칩입니다.
비유
text
일반 네트워크 스위치: 여러 케이블로 따로따로 연결
NVSwitch: 하나의 고속 버스처럼 모든 GPU를 동시에 연결구조
text
18개 NVLink (선로들)
↓
NVSwitch (고속 버스)
↓
모든 GPU가 이 버스에 접근 가능주요 기능
1. GPU 간 통신 중계
- CPU를 거치지 않고 직접 GPU ↔ GPU 통신
- 데이터 라우팅 관리
2. 논블로킹(Non-blocking) 네트워크
- 모든 GPU가 동시에 최대 속도로 통신 가능
- 한 GPU의 통신이 다른 GPU를 방해하지 않음
- 완전히 연결된 메시(Fully Connected Mesh)
3. 고급 기능
- SHARP(Scalable Hierarchical Aggregation Reduction Protocol) 엔진 내장
- Reduce/Multicast 연산 가속화
- 저지연 통신 보장
기술 사양
| 항목 | 사양 |
|---|---|
| NVLink 포트 | 64개 |
| 처리량 | 900GB/s (3세대) |
| 네트워크 타입 | 논블로킹 완전 연결 메시 |
NVLink vs NVSwitch 비교
| 구분 | NVLink | NVSwitch |
|---|---|---|
| 역할 | 2개 기기 간 직접 연결 | 여러 기기를 중앙에서 연결 |
| 구조 | 포인트-투-포인트 (P2P) | 완전 연결 메시 |
| 효율 | 1:1 통신만 고속 | 모든 조합이 고속 |
| 비유 | 차선(Lane) | 교차로/교환로 |
실제 효과
NVSwitch 없을 때
- GPU들이 서로 통신하려고 할 때 경합 발생
- 순차적 통신 필요 → 지연 증가
- 성능 저하
NVSwitch 있을 때
- 모든 GPU 조합이 동시에 최대 속도로 통신
- 전체 시스템 처리량 극대화
- 계산 능력을 완전히 활용 가능
역사적 배경
NVSwitch의 개념은 매우 오래된 컴퓨터 아키텍처에서 비롯되었습니다:
- PCIe 버스: PC의 주변기기 연결
- 메모리 버스: CPU ↔ 메모리 연결
- 시스템 버스: CPU, 메모리, I/O 장치 연결
NVIDIA는 이런 오래 검증된 버스 개념을 GPU 간 고속 통신에 적용했습니다.
요약
B200의 강점
- 20 페타플롭스 = 일반 GPU의 수천~수만 배 성능
- 192GB 메모리 = 대규모 모델 학습 가능
- 8TB/s 메모리 대역폭 = 빠른 데이터 접근
- 10TB/s 칩 간 인터커넥트 = 효율적인 듀얼-다이 활용
NVLink + NVSwitch의 가치
- NVLink: 개별 고속 선로 (18개 per GPU = 1.8TB/s)
- NVSwitch: 이 선로들을 효율적으로 연결하는 버스
- 결과: 모든 GPU가 동시에 최대 속도로 통신 가능
- 확장성: 72개 GPU까지 논블로킹 네트워크 지원
최종 이해
B200과 NVLink/NVSwitch 조합은 대규모 AI 시스템이 필요로 하는 극도의 성능과 효율적인 통신을 동시에 제공합니다.
댓글을 불러오는 중...