JH Blog

Blackwell 아키텍처 개요

전체 제품 라인업

데이터센터/엔터프라이즈 GPU

B100: 기본 데이터센터 GPU
B200: 고성능 데이터센터 GPU (더 높은 TDP, 우수한 성능)
HGX B200: 8개 GPU가 통합된 보드
NVL72: 72개 GPU가 장착된 랙 규모 시스템

소비자/게이밍 GPU (RTX 50 Series)

GeForce RTX 5080: GB203 GPU 기반
GeForce RTX 5070: GB205 GPU 기반

전문가용 GPU (RTX PRO)

RTX PRO 6000 Blackwell: 96GB VRAM (이전 Ada: 48GB)
- 메모리 대역폭이 거의 2배 증가
- 코어 개수 및 계산 성능 대폭 향상

주요 제조 특징

제조공정: TSMC 4NP
메모리 기술: GDDR7
발표: 2024년 3월 (GTC 2024)

B200 상세 사양

기본 하드웨어 사양

항목	사양
트랜지스터	208억 개
제조공정	TSMC 4NP
메모리	192GB HBM3e
메모리 대역폭	8TB/s
CUDA 코어	16,896개
텍스처 유닛	528개
기본 클록	1665 MHz
부스트 클록	1837 MHz

아키텍처 특징

듀얼-다이 설계

2개의 GPU 칩이 1개 패키지로 통합
칩 간 고대역폭 인터커넥트: 10TB/s
이를 통해 192GB 전체를 두 칩이 효율적으로 활용

GPU 수량별 성능

구성	성능	용도
단일 B200	최대 20 페타플롭스 (sparse-FP4 AI)	개별 학습/추론
DGX B200 (8개)	FP8: 72 PF, FP4: 144 PF	대규모 모델 학습

이전 세대 대비 성능 향상

트레이닝: DGX H200 대비 3배 향상
추론: DGX H200 대비 15배 향상

성능 지표 이해

페타플롭스(PF)란?

FLOPS = Floating Point Operations Per Second (초당 부동소수점 연산 수)

단위 순서

단위	약자	크기
기가플롭스	GF	10억 연산/초
테라플롭스	TF	1조 연산/초
페타플롭스	PF	1000조 연산/초

20 페타플롭스의 의미

20 PF = 20,000조 연산/초
고성능 GPU (RTX 4090): ~1.5 TF = 0.0015 PF
B200은 RTX 4090의 약 13,000배 강력함

실제 비교

일반 PC가 1초에 1개 계산 → B200은 같은 시간에 20,000조 개 계산
일반 PC로 같은 일을 하려면 약 600억 년 소요
세계 상위 슈퍼컴퓨터들도 수십~수백 PF 수준

실제 의미

B200의 20 PF는 매우 복잡한 AI 모델을 실시간으로 처리할 수 있다는 뜻입니다.

수천억 개 파라미터를 가진 대규모 언어모델(LLM) 학습 가능
일반 PC로는 불가능한 규모의 연산 실현

대역폭 구조

계층별 대역폭

text

메모리 (VRAM) ↔ 칩
    ↓ 8TB/s
    ↓
칩 간 인터커넥트
    ↓ 10TB/s (듀얼-다이 내부)
    ↓
NVLink (GPU 간)
    ↓ 1.8TB/s (GPU당)

상세 설명

1. 메모리 ↔ 칩 대역폭

8TB/s (192GB HBM3e)
GPU 칩이 자신의 메모리에 접근하는 속도
메모리 인터페이스: 4096-bit

2. 칩 간 인터커넥트 (듀얼-다이 내부)

10TB/s
같은 패키지 내 2개 칩 연결
메모리 대역폭(8TB/s)보다 더 빠름 → 칩 간 통신이 병목이 되지 않도록 설계

3. GPU 간 NVLink

1.8TB/s (양방향) per GPU
여러 GPU를 연결할 때 사용
메모리 대역폭보다 느림 → 멀티 GPU 환경에서 병목 가능

설계 의도

B200의 대역폭 구조는 계층마다 하위 계층보다 빠르거나 같게 설계되어 있습니다. 이를 통해 각 계층이 병목이 되지 않고 전체 시스템이 효율적으로 작동합니다.

NVLink 상세 설명

NVLink란?

NVLink는 GPU 간의 고속 통신을 위한 물리적 **통신 선로(Lane)**입니다.

계층 구조

text

NVLink (개별 케이블/선로)
    ↓
NVSwitch (버스 - 여러 선로를 통합)
    ↓
GPU들 (버스에 연결된 장치들)

NVLink 5세대 (Blackwell) 사양

항목	사양
GPU당 연결 수	18개
연결당 대역폭	100 GB/s (양방향)
GPU당 총 대역폭	1.8 TB/s
NVSwitch 포트	64개

단위 정확성

1.8 TB/s = 테라바이트/초
= 14.4 Tb/s = 테라비트/초
TB와 Tb는 다른 단위 (1 TB = 8 Tb)

성능 지표

단일 GPU 연결

고정 대역폭: 1.8TB/s (GPU당)
GPU 간 차이 없이 동일
양방향 전송 가능

멀티 GPU 환경 (GB200 NVL72 기준)

72개 GPU 전체 연결 시 총 대역폭: 130TB/s
하지만 한 GPU ↔ 다른 GPU 통신은 여전히 1.8TB/s 제한

NVLink의 역할

NVLink는 버스의 "차선(Lane)"처럼 작동합니다:

text

버스 시스템          GPU 시스템
────────────        ──────────
차선 = NVLink
교차로 = NVSwitch
자동차 = 데이터

NVSwitch 이해하기

NVSwitch란?

NVSwitch는 여러 NVLink를 연결하여 고속 버스(Bus) 역할을 하는 칩입니다.

비유

text

일반 네트워크 스위치: 여러 케이블로 따로따로 연결
NVSwitch: 하나의 고속 버스처럼 모든 GPU를 동시에 연결

구조

text

18개 NVLink (선로들)
        ↓
    NVSwitch (고속 버스)
        ↓
모든 GPU가 이 버스에 접근 가능

주요 기능

1. GPU 간 통신 중계

CPU를 거치지 않고 직접 GPU ↔ GPU 통신
데이터 라우팅 관리

2. 논블로킹(Non-blocking) 네트워크

모든 GPU가 동시에 최대 속도로 통신 가능
한 GPU의 통신이 다른 GPU를 방해하지 않음
완전히 연결된 메시(Fully Connected Mesh)

3. 고급 기능

SHARP(Scalable Hierarchical Aggregation Reduction Protocol) 엔진 내장
Reduce/Multicast 연산 가속화
저지연 통신 보장

기술 사양

항목	사양
NVLink 포트	64개
처리량	900GB/s (3세대)
네트워크 타입	논블로킹 완전 연결 메시

NVLink vs NVSwitch 비교

구분	NVLink	NVSwitch
역할	2개 기기 간 직접 연결	여러 기기를 중앙에서 연결
구조	포인트-투-포인트 (P2P)	완전 연결 메시
효율	1:1 통신만 고속	모든 조합이 고속
비유	차선(Lane)	교차로/교환로

실제 효과

NVSwitch 없을 때

GPU들이 서로 통신하려고 할 때 경합 발생
순차적 통신 필요 → 지연 증가
성능 저하

NVSwitch 있을 때

모든 GPU 조합이 동시에 최대 속도로 통신
전체 시스템 처리량 극대화
계산 능력을 완전히 활용 가능

역사적 배경

NVSwitch의 개념은 매우 오래된 컴퓨터 아키텍처에서 비롯되었습니다:

PCIe 버스: PC의 주변기기 연결
메모리 버스: CPU ↔ 메모리 연결
시스템 버스: CPU, 메모리, I/O 장치 연결

NVIDIA는 이런 오래 검증된 버스 개념을 GPU 간 고속 통신에 적용했습니다.

요약

B200의 강점

20 페타플롭스 = 일반 GPU의 수천~수만 배 성능
192GB 메모리 = 대규모 모델 학습 가능
8TB/s 메모리 대역폭 = 빠른 데이터 접근
10TB/s 칩 간 인터커넥트 = 효율적인 듀얼-다이 활용

NVLink + NVSwitch의 가치

NVLink: 개별 고속 선로 (18개 per GPU = 1.8TB/s)
NVSwitch: 이 선로들을 효율적으로 연결하는 버스
결과: 모든 GPU가 동시에 최대 속도로 통신 가능
확장성: 72개 GPU까지 논블로킹 네트워크 지원

최종 이해

B200과 NVLink/NVSwitch 조합은 대규모 AI 시스템이 필요로 하는 극도의 성능과 효율적인 통신을 동시에 제공합니다.

목차

Blackwell 아키텍처 개요

전체 제품 라인업

데이터센터/엔터프라이즈 GPU

소비자/게이밍 GPU (RTX 50 Series)

전문가용 GPU (RTX PRO)

주요 제조 특징

B200 상세 사양

기본 하드웨어 사양

아키텍처 특징

듀얼-다이 설계

GPU 수량별 성능

이전 세대 대비 성능 향상

성능 지표 이해

페타플롭스(PF)란?

단위 순서

20 페타플롭스의 의미

실제 비교

실제 의미

대역폭 구조

계층별 대역폭

상세 설명

1. 메모리 ↔ 칩 대역폭

2. 칩 간 인터커넥트 (듀얼-다이 내부)

3. GPU 간 NVLink

설계 의도

NVLink 상세 설명

NVLink란?

계층 구조

NVLink 5세대 (Blackwell) 사양

단위 정확성

성능 지표

단일 GPU 연결

멀티 GPU 환경 (GB200 NVL72 기준)

NVLink의 역할

NVSwitch 이해하기

NVSwitch란?

비유

구조

주요 기능

1. GPU 간 통신 중계

2. 논블로킹(Non-blocking) 네트워크

3. 고급 기능

기술 사양

NVLink vs NVSwitch 비교

실제 효과

NVSwitch 없을 때

NVSwitch 있을 때

역사적 배경

요약

B200의 강점

NVLink + NVSwitch의 가치

최종 이해