본문 바로가기
반도체, 소.부.장.

NVIDIA GB10과 DGX Spark: 전 세계의 AI 개발자들을 NVIDIA 품안으로

by 뜨리스땅 2025. 9. 20.
728x90
반응형

1. 책상 위의 AI 슈퍼컴퓨터

 

NVIDIA는 지난 20년간 AI 컴퓨팅을 위한 GPU와 시스템을 지속적으로 개발해왔으며, 최근 출시한 Blakwell 아키텍처에 이르러서는 여러가지 확장성에 대한 고민을 하는 것으로 보인다.

 

그리고, 이러한 고민을 기반으로 최근 NVIDIA는 GB10이라는 반도체(SoC)를 개발하여 출시하였다.

 

이 SoC는 "AI Supercomputer On Your Desk"라는 비전 아래 개발된 칩으로, NVIDIA의 최신 AI 아키텍처인 Blackwell을 소형 폼 팩터에 통합하여 개발자와 연구자에게 강력한 AI 컴퓨팅 능력을 제공한 반도체이다.

 

 

NVIDIA는 지금까지 축적해 온 데이터센터급 AI 기술을 개인 워크스테이션 환경으로 확장해서 Intel이 점유하고 있는 개인 PC 시장 혹은 소형 workstation 용 시장을 점유하려는 것으로 보인다.

 


2. Blackwell 아키텍처의 계승 및 혁신

 

GB10은 NVIDIA의 최신 Blackwell 아키텍처를 계승하였기 때문에 AI 컴퓨팅에 최적화된 성능을 제공한다고 추정된다. Blackwell 아키텍처 기반으로 하였기 때문에 다음 3가지가 핵심적인 기술 요소로 보여진다.

 


- Tensor Core 기술: "5th Generation Tensor Core"를 탑재하여 NVFP4 형식에서 "1 Petaflop FP4 AI Compute"의 AI 성능을 제공한다. 이는 Hopper 대비 "4x more TFLOPs/mm2"의 컴퓨팅 밀도를 시현한다.

 

- NVLink: "NVLink 5 1,800 GB/s"와 "NVLink-C2C Up to 900GB/s Coherent CPU-GPU Interface"를 통해 다이 간 및 CPU-GPU 간 초고속 연결을 지원한다.

 

- 통합 메모리 아키텍처 (UMA): "128GB coherent unified system memory"를 통해 최대 2000억 개의 파라미터를 가진 대규모 AI 모델 작업 및 최대 700억 개의 파라미터 모델 미세 조정을 가능하게 한다. 이는 GPU가 "entire system bandwidth over the C2C interface"에 접근할 수 있도록 하여 약 "600GB/s of aggregate bandwidth"를 제공하게 된다.

 

 

3. GB10 SoC의 구성 및 기술적 특징

 

GB10은 NVIDIA가 독자적으로 개발한 것이 아니라, MediaTek과의 협력을 통해 개발한 반도체이다.

 


- SoC 구성: "S-dielet (CPU, memory subsystem, etc.) + G-dielet (GPU core)"로 구성되며, 이들은 "Advanced 2.5D packaging" 기술을 통해 통합되며, 두 다이 모두 "TSMC 3nm Process Technology"로 생산된다.

 

- CPU: "20 Arm Cores"를 탑재하며, 각 코어는 전용 L2 캐시를 가지고 있고, 클러스터당 16MB L3 캐시를 포함한다. ARM Arch v9.2를 지원한다.

 

- GPU: NVIDIA Blackwell 아키텍처 기반의 "Blackwell iGPU"를 사용하며, "31 TFLOPS (fp32)"의 CUDA 성능과 "1000 TOPS NVFP4"의 AI 성능을 제공한다. 또한 "5th Generation Tensor Core"와 "4th generation NVIDIA RT Core"를 포함한다.

 

- 메모리: "256b LPDDR5x Coherent Unified System Memory (UMA)"를 사용하며, 최대 "9400 Mbs, ~301GB/s raw bandwidth"를 제공한다. 16MB 크기의 CPU를 위한 L4 cache가 존재하며, 전력 효율적인 data-sharing을 지원해서 시스템 레벨 캐시 역할을 합니다.

 

- C2C 인터페이스: 높은 bandwidth와 낮은 소비전력의 C2C interface를 갖는 NVIDIA NVLINK Architecture를 통해 다이 간 효율적인 통신을 가능하게 한다.

 

- 협력 모델: GB10은 MediaTek이 제공하는 전력 효율적인 Memory Subsystem 기술과 결합되어 고성능 GPU로써 기능을 구현하게 된다.

 

 

 

4. DGX Spark 워크스테이션의 핵심 특징 및 이점

 

NVIDIA는 GB10 Superchip 만을 개발한 것이 아니라, 이를 기반으로 해서 구동되는 dekstop workstation 형태의 NVIDIA DGX Spark 시스템을 출시하여 소규모 스타트업이나 역량있는 개인이 손쉽게 AI 개발을 위한 시스템을 보유할 수 있도록 하였다.

 


- AI 워크로드 가속화: "Accelerates AI, Data Science, compute, rendering, visualization workloads"와 같은 모든 AI를 필요로 하는 작업과 다양한 고성능 컴퓨팅 작업에 사용할 수 있다.

 

- 대규모 모델 지원: "128GB coherent unified system memory" 덕분에 최대 2000억 개의 파라미터 모델 작업 및 최대 700억 개의 파라미터 모델 미세 조정을 지원한다.

 

- 확장성: "ConnectX-7 networking"을 통해 두 대의 DGX Spark 시스템을 연결하여 4,050억 개의 파라미터 모델까지 운영하여 작업할 수 있다. 아마 2개 이상의 DGX Spark 시스템도 연결하여 더 큰 모델 기반으로 다양한 작업을 할 수 있을 것으로 보이는데, 이를 위한 최적화 작업이나 balancing 같은 것이 필요하여 아직까지는 이를 공식화하고 있지는 않는 것으로 보인다.

 

- 소프트웨어 스택: DGX Base OS와 NVIDIA AI software stack을 제공하여 워크로드를 DGX Cloud 또는 기타 가속화된 데이터센터/클라우드 인프라로 원활하게 이동시키거나 가져올 수 있다.

 

- 유연한 배포: 개별적인 AI workstation이나 네트워크에 연결된 개별적인 AI cloud로 유연하게 구성할 수 있습니다.

 

- 컴팩트하고 효율적인 디자인: 컴팩트하고 전력 효율적인 설계를 통해 어떤 사무환경이나 집 혹은 사무실의 벽면에 존재하는 콘센트에 꽂아서 개인 작업 공간에 쉽게 배치할 수 있다. GB10의 TDP(소비전력)는 140W 수준으로 Intel의 기존 일반 서버용 CPU인 Xeon과 비슷한 수준이다.

 

- 다양한 워크로드 지원: Robotics, Computer Vision, VLM, Prototyping, Fine Tuning, Inference & Gen AI, Data Science, Edge Applications 등 광범위한 AI 워크로드를 처리할 수 있다.

 

 

 

5. 맺음말


NVIDIA GB10 SoC와 DGX Spark는 데이터센터급 AI 성능을 개인 워크스테이션으로 가져와 AI 개발, 연구 및 배포를 혁신할 잠재력을 가지고 있다.

 

Blackwell 아키텍처의 강력한 컴퓨팅 능력, MediaTek과의 협력을 통한 효율적인 SoC 설계, 그리고 유연한 확장성 및 소프트웨어 지원은 개발자들이 대규모 AI 모델을 보다 쉽게 다루고 새로운 AI 애플리케이션을 창조하는 데 기여할 수 있는 가능성이 보인다.

 

 

NVIDIA는 최근에 "Brings the power of Blackwell GPU to millions of developers"라는 목표를 공개적으로 선언하며, GB10 DGX Spark은 목표를 달성하고자 하는 전략이라고 할 수 있다.

 

 

출처: NVIDIA, Hot Chips 2025

 

뜨리스땅

 

 

 

https://tristanchoi.tistory.com/706

 

NVIDIA의 Intel 투자 - 사실은 1년간 이상 협력의 결과물

트럼프 행정부는 전혀 무관 엔비디아와 인텔은 약 1년 전부터 클라이언트 및 데이터센터 제품을 위한 공동 개발 프로세서를 추진해왔으며, 두 회사 모두 인텔 x86 RTX SoC와 맞춤형 엔비디아 x86 데

tristanchoi.tistory.com

 

728x90
반응형

댓글