jhpka's blog

[GPU] NVIDIA Blackwell GPU

Admin User

목차

  1. Blackwell 아키텍처 개요
  2. B200 상세 사양
  3. 성능 지표 이해
  4. 대역폭 구조
  5. NVLink 상세 설명
  6. NVSwitch 이해하기

Blackwell 아키텍처 개요

전체 제품 라인업

데이터센터/엔터프라이즈 GPU

  • B100: 기본 데이터센터 GPU
  • B200: 고성능 데이터센터 GPU (더 높은 TDP, 우수한 성능)
  • HGX B200: 8개 GPU가 통합된 보드
  • NVL72: 72개 GPU가 장착된 랙 규모 시스템

소비자/게이밍 GPU (RTX 50 Series)

  • GeForce RTX 5080: GB203 GPU 기반
  • GeForce RTX 5070: GB205 GPU 기반

전문가용 GPU (RTX PRO)

  • RTX PRO 6000 Blackwell: 96GB VRAM (이전 Ada: 48GB)
    • 메모리 대역폭이 거의 2배 증가
    • 코어 개수 및 계산 성능 대폭 향상

주요 제조 특징

  • 제조공정: TSMC 4NP
  • 메모리 기술: GDDR7
  • 발표: 2024년 3월 (GTC 2024)

B200 상세 사양

기본 하드웨어 사양

항목사양
트랜지스터208억 개
제조공정TSMC 4NP
메모리192GB HBM3e
메모리 대역폭8TB/s
CUDA 코어16,896개
텍스처 유닛528개
기본 클록1665 MHz
부스트 클록1837 MHz

아키텍처 특징

듀얼-다이 설계

  • 2개의 GPU 칩이 1개 패키지로 통합
  • 칩 간 고대역폭 인터커넥트: 10TB/s
  • 이를 통해 192GB 전체를 두 칩이 효율적으로 활용

GPU 수량별 성능

구성성능용도
단일 B200최대 20 페타플롭스 (sparse-FP4 AI)개별 학습/추론
DGX B200 (8개)FP8: 72 PF, FP4: 144 PF대규모 모델 학습

이전 세대 대비 성능 향상

  • 트레이닝: DGX H200 대비 3배 향상
  • 추론: DGX H200 대비 15배 향상

성능 지표 이해

페타플롭스(PF)란?

FLOPS = Floating Point Operations Per Second (초당 부동소수점 연산 수)

단위 순서

단위약자크기
기가플롭스GF10억 연산/초
테라플롭스TF1조 연산/초
페타플롭스PF1000조 연산/초

20 페타플롭스의 의미

  • 20 PF = 20,000조 연산/초
  • 고성능 GPU (RTX 4090): ~1.5 TF = 0.0015 PF
  • B200은 RTX 4090의 약 13,000배 강력함

실제 비교

  • 일반 PC가 1초에 1개 계산 → B200은 같은 시간에 20,000조 개 계산
  • 일반 PC로 같은 일을 하려면 약 600억 년 소요
  • 세계 상위 슈퍼컴퓨터들도 수십~수백 PF 수준

실제 의미

B200의 20 PF는 매우 복잡한 AI 모델을 실시간으로 처리할 수 있다는 뜻입니다.

  • 수천억 개 파라미터를 가진 대규모 언어모델(LLM) 학습 가능
  • 일반 PC로는 불가능한 규모의 연산 실현

대역폭 구조

계층별 대역폭

text
메모리 (VRAM) ↔ 칩
    ↓ 8TB/s
    ↓
칩 간 인터커넥트
    ↓ 10TB/s (듀얼-다이 내부)
    ↓
NVLink (GPU 간)
    ↓ 1.8TB/s (GPU당)

상세 설명

1. 메모리 ↔ 칩 대역폭

  • 8TB/s (192GB HBM3e)
  • GPU 칩이 자신의 메모리에 접근하는 속도
  • 메모리 인터페이스: 4096-bit

2. 칩 간 인터커넥트 (듀얼-다이 내부)

  • 10TB/s
  • 같은 패키지 내 2개 칩 연결
  • 메모리 대역폭(8TB/s)보다 더 빠름 → 칩 간 통신이 병목이 되지 않도록 설계

3. GPU 간 NVLink

  • 1.8TB/s (양방향) per GPU
  • 여러 GPU를 연결할 때 사용
  • 메모리 대역폭보다 느림 → 멀티 GPU 환경에서 병목 가능

설계 의도

B200의 대역폭 구조는 계층마다 하위 계층보다 빠르거나 같게 설계되어 있습니다. 이를 통해 각 계층이 병목이 되지 않고 전체 시스템이 효율적으로 작동합니다.


NVLink 상세 설명

NVLink란?

NVLink는 GPU 간의 고속 통신을 위한 물리적 **통신 선로(Lane)**입니다.

계층 구조

text
NVLink (개별 케이블/선로)
    ↓
NVSwitch (버스 - 여러 선로를 통합)
    ↓
GPU들 (버스에 연결된 장치들)

NVLink 5세대 (Blackwell) 사양

항목사양
GPU당 연결 수18개
연결당 대역폭100 GB/s (양방향)
GPU당 총 대역폭1.8 TB/s
NVSwitch 포트64개

단위 정확성

  • 1.8 TB/s = 테라바이트/초
  • = 14.4 Tb/s = 테라비트/초
  • TB와 Tb는 다른 단위 (1 TB = 8 Tb)

성능 지표

단일 GPU 연결

  • 고정 대역폭: 1.8TB/s (GPU당)
  • GPU 간 차이 없이 동일
  • 양방향 전송 가능

멀티 GPU 환경 (GB200 NVL72 기준)

  • 72개 GPU 전체 연결 시 총 대역폭: 130TB/s
  • 하지만 한 GPU ↔ 다른 GPU 통신은 여전히 1.8TB/s 제한

NVLink의 역할

NVLink는 버스의 "차선(Lane)"처럼 작동합니다:

text
버스 시스템          GPU 시스템
────────────        ──────────
차선 = NVLink
교차로 = NVSwitch
자동차 = 데이터

NVSwitch 이해하기

NVSwitch란?

NVSwitch는 여러 NVLink를 연결하여 고속 버스(Bus) 역할을 하는 칩입니다.

비유

text
일반 네트워크 스위치: 여러 케이블로 따로따로 연결
NVSwitch: 하나의 고속 버스처럼 모든 GPU를 동시에 연결

구조

text
18개 NVLink (선로들)
        ↓
    NVSwitch (고속 버스)
        ↓
모든 GPU가 이 버스에 접근 가능

주요 기능

1. GPU 간 통신 중계

  • CPU를 거치지 않고 직접 GPU ↔ GPU 통신
  • 데이터 라우팅 관리

2. 논블로킹(Non-blocking) 네트워크

  • 모든 GPU가 동시에 최대 속도로 통신 가능
  • 한 GPU의 통신이 다른 GPU를 방해하지 않음
  • 완전히 연결된 메시(Fully Connected Mesh)

3. 고급 기능

  • SHARP(Scalable Hierarchical Aggregation Reduction Protocol) 엔진 내장
  • Reduce/Multicast 연산 가속화
  • 저지연 통신 보장

기술 사양

항목사양
NVLink 포트64개
처리량900GB/s (3세대)
네트워크 타입논블로킹 완전 연결 메시

NVLink vs NVSwitch 비교

구분NVLinkNVSwitch
역할2개 기기 간 직접 연결여러 기기를 중앙에서 연결
구조포인트-투-포인트 (P2P)완전 연결 메시
효율1:1 통신만 고속모든 조합이 고속
비유차선(Lane)교차로/교환로

실제 효과

NVSwitch 없을 때

  • GPU들이 서로 통신하려고 할 때 경합 발생
  • 순차적 통신 필요 → 지연 증가
  • 성능 저하

NVSwitch 있을 때

  • 모든 GPU 조합이 동시에 최대 속도로 통신
  • 전체 시스템 처리량 극대화
  • 계산 능력을 완전히 활용 가능

역사적 배경

NVSwitch의 개념은 매우 오래된 컴퓨터 아키텍처에서 비롯되었습니다:

  • PCIe 버스: PC의 주변기기 연결
  • 메모리 버스: CPU ↔ 메모리 연결
  • 시스템 버스: CPU, 메모리, I/O 장치 연결

NVIDIA는 이런 오래 검증된 버스 개념을 GPU 간 고속 통신에 적용했습니다.


요약

B200의 강점

  1. 20 페타플롭스 = 일반 GPU의 수천~수만 배 성능
  2. 192GB 메모리 = 대규모 모델 학습 가능
  3. 8TB/s 메모리 대역폭 = 빠른 데이터 접근
  4. 10TB/s 칩 간 인터커넥트 = 효율적인 듀얼-다이 활용

NVLink + NVSwitch의 가치

  1. NVLink: 개별 고속 선로 (18개 per GPU = 1.8TB/s)
  2. NVSwitch: 이 선로들을 효율적으로 연결하는 버스
  3. 결과: 모든 GPU가 동시에 최대 속도로 통신 가능
  4. 확장성: 72개 GPU까지 논블로킹 네트워크 지원

최종 이해

B200과 NVLink/NVSwitch 조합은 대규모 AI 시스템이 필요로 하는 극도의 성능효율적인 통신을 동시에 제공합니다.

댓글을 불러오는 중...