728x90
반응형
1. AI 팩토리의 기반으로서의 네트워크
NVIDIA가 가지고 있는 핵심 사상은 "데이터센터가 곧 컴퓨터이며, 네트워크가 데이터센터를 정의한다”는 점입니다. 이는 AI 시스템의 성능과 확장성에 있어 네트워크가 근본적으로 중요하다는 사실을 강조합니다. 기존의 데이터센터 네트워킹 아키텍처는 AI의 요구를 충족하기에 불충분합니다.

- AI는 지터 없는 통신을 요구함: 대규모 AI 학습 작업은 네트워크 지연(latency)과 지터(jitter)에 매우 민감합니다. 평균 대역폭만으로는 충분하지 않으며, 예측 가능한 성능과 낮은 지터를 보장하는 네트워크가 필요합니다.
- AI 팩토리에 적합한 이더넷 아키텍처: NVIDIA는 “하이퍼스케일 Spine(대규모 클라우드 데이터센터용)”과 “AI 팩토리(고성능 분산 컴퓨팅용)”를 구분합니다. Spectrum-X 이더넷은 AI 팩토리에 최적화된 네트워크입니다.
- RoCE 활용: TCP가 저대역폭 흐름에 적합한 반면, AI 워크로드에는 지터 허용도가 낮고 대역폭이 큰 RoCE(RDMA over Converged Ethernet)가 필수적입니다.
2. Spectrum-X Ethernet: AI 성능을 위해 설계된 네트워크
Spectrum-X 이더넷은 AI 네트워킹의 특수한 과제를 해결하기 위해 설계된 솔루션으로, 기존 이더넷 대비 큰 성능 향상을 제공합니다.

- 엔드 투 엔드 네트워크 처리: 스위치에서 슈퍼NIC까지 연결된 전체 경로를 최적화하여 지연을 최소화합니다.
- 주요 성능 차별화 요소:
- Collectives 성능: 멀티 테넌트 환경에서 NCCL 성능 35% 향상, 테일 지연 감소.
- Expert Dispatch 성능: MoE(Mixture of Experts) 환경에서 3배 향상, 불균형 토큰 분배로 인한 혼잡 방지.
- LLAMA3 70B 학습: 멀티 테넌트 데이터센터에서 42% 더 높은 성능 제공.
- 기술적 기반:
- 부하 분산(1.6배 대역폭 향상),
- 고주파수 텔레메트리(1000배 빠른 데이터 수집),
- 네트워크 소음 격리(2.2배 all-reduce 성능 향상),
- 데이터 경로 프로그래밍(사용자 맞춤형 AI 프레임워크 지원).

3. Co-Packaged Silicon Photonics: AI 확장의 동력
AI 확장성과 밀도는 광학 연결에 달려 있다는 점을 강조하며, 전력 소모 절감과 신뢰성 강화를 핵심 과제로 제시합니다.

- 전력 소비 문제: 광학 네트워크 전력이 전체 컴퓨팅 자원의 10%에 달할 수 있음. AI 팩토리(10만 대 서버)에서는 40MW까지 필요.
- Spectrum-X Ethernet Photonics 도입: 세계 최초 200G/SerDes 코패키지드 옵틱스. 스위치 ASIC과 광학 부품을 직접 통합.
- 장점:
- 레이저 수 4배 감소,
- 전력 효율 3.5배 향상(동일 전력으로 GPU 3배 운용 가능),
- 10배 높은 복원력,
- 신호 무결성 63배 향상.
- 혁신 기술:
- 세계 최초 1.6T 실리콘 포토닉스 CPO 칩 (마이크로 링 변조기),
- 3D 적층 실리콘 포토닉스 엔진,
- 고효율 레이저, 분리형 광섬유 커넥터, 다수의 특허.
- 통합 솔루션: Quantum-X InfiniBand와 Spectrum-X Ethernet 모두 실리콘 포토닉스 통합 예정.
4. Spectrum-XGS Ethernet: 데이터센터를 넘어 AI 확장
단일 데이터센터 한계를 넘어 분산형 AI 인프라를 지원하기 위해 Spectrum-XGS 이더넷을 도입합니다.

- 분산형 AI 인프라: 전력 및 물리적 한계를 극복하며 원격지 간 AI를 연결.
- 데이터센터 통합: 여러 데이터센터를 연결해 초대형 AI 슈퍼컴퓨터 구축.
- 주요 장점:
- 무제한 확장성,
- 자동 부하 분산(거리 기반 최적화),
- 지연 및 지터 최소화,
- 전 세계 단일 텔레메트리 기반 혼잡 제어,
- 스케일 아웃과 스케일 어크로스 통합 인프라.
- 성능 향상: 멀티 사이트 AI 워크로드에서 NCCL 성능 1.9배 향상.
맺음말
NVIDIA는 Spectrum-X 이더넷과 통합 실리콘 포토닉스를 차세대 AI 팩토리 구축의 필수 기술로 제시합니다. 이러한 혁신은 단일 데이터센터 내에서뿐만 아니라 지리적으로 분산된 환경에서도 AI 개발과 배포를 위해 필요한 성능, 전력 효율, 확장성을 제공하는 핵심 기반이 됩니다.
출처: NVIDIA
뜨리스땅
https://tristanchoi.tistory.com/708
NVIDIA의 양자 컴퓨팅에 대한 생각
NVIDIA는 과거 양자 컴퓨팅의 상용화가 멀었다는 신중한 입장을 보였지만, 최근에는 AI와 결합한 '하이브리드 컴퓨팅'을 통해 양자 기술의 상용화를 앞당길 수 있다는 낙관적인 태도로 급선회했습
tristanchoi.tistory.com
728x90
반응형
'반도체, 소.부.장.' 카테고리의 다른 글
| HBM4는 HBM3E와 어떻게 다르며, 왜 필요한가? (0) | 2025.09.23 |
|---|---|
| NVIDIA의 양자 컴퓨팅에 대한 생각 (0) | 2025.09.21 |
| NVIDIA의 Intel 투자 - 사실은 1년간 이상 협력의 결과물 (0) | 2025.09.20 |
| NVIDIA GB10과 DGX Spark: 전 세계의 AI 개발자들을 NVIDIA 품안으로 (0) | 2025.09.20 |
| NVIDIA의 GB300 blackwell 반도체와 MGX 시스템 (0) | 2025.09.17 |
댓글