1. Blackwell은 발열 이슈가 있는가?
최근 Nvidia의 차세대 AI 칩인 Blackwell(블랙웰)과 관련하여 발열 문제와 양산 지연에 대한 여러 보도가 있었다. 이에 대해 젠슨 황 CEO가 공개한 주요 내용은 다음과 같다.
설계 결함 인정
젠슨 황 CEO는 Blackwell 칩에 설계 결함이 있었음을 인정했다. 그는 "Blackwell에 설계 결함이 있었다. 기능은 했지만 이 결함으로 인해 수율이 낮아졌다"고 밝혔습니다. 또한 이 문제가 "100% Nvidia의 잘못"이라고 명확히 했다.
TSMC와의 관계
일부 언론에서 TSMC와 Nvidia 사이에 긴장 관계가 있다고 보도했으나, 황 CEO는 이를 "가짜 뉴스"라고 일축했다. 오히려 TSMC가 수율 문제를 극복하고 Blackwell 생산을 재개하는 데 도움을 주었다고 강조했습다.
발열 문제
Blackwell 칩을 탑재한 서버 랙에서 과열 문제가 발생했다는 보도가 있었다. 특히 72개의 Blackwell 칩을 탑재한 고밀도 서버 랙에서 발열 문제가 심각한 것으로 알려졌다. 그러나 젠슨 황 CEO는 이러한 과열 문제에 대한 루머를 부인했다.
2. Blackwell은 왜 이전 NVIDIA 제품에 비해 발열이 심한가?
Nvidia의 Blackwell GPU가 이전 제품들에 비해 발열이 높은 이유는 1) 높은 소비 전력, 2) 고밀도 설계 및 패키징, 3) 고밀도 설계, 4) 서버랙 구성의 변화의 4가지로 요약할 수 있다.
1) 높은 소비 전력
Blackwell GPU는 이전 세대보다 훨씬 높은 전력을 소비한다. Blackwell GPU의 TDP(Thermal Design Power)는 구성에 따라 400W에서 1000W 사이다. GB200 슈퍼칩의 경우 최대 2,700W까지 소비할 수 있다.
따라서, 기본적으로 이렇게 높은 소비 전력으로 설계되었기 때문에 많은 열을 발생시킨다.
2) 고밀도 설계
Blackwell은 Nvidia의 제품으로는 처음으로 MCM(Multi-Chip Module) 설계를 채택하여 두 개의 GPU 칩렛을 TSMC의 CoWoS-L 패키징 기술을 사용하여 연결했다. 고밀도 설계가 되어 단위 면적당 발열량이 크게 증가하였을 뿐만 아니라, CoWoS-L 패키징 기술 자체가 CoWoS-S 패키징에 비해 열을 많이 발생시킬 수 밖에 없는 이유가 있다. 이는 후에 좀더 자세히 설명하겠다.
3) 고성능 추구
Nvidia는 AI 성능을 극대화하기 위해 전력 효율성보다 성능을 우선시하는 방향으로 만들어졌다. Blackwell은 이전 세대인 Hopper보다 AI 모델 훈련 속도가 최대 30배 빠르게 설게되었기 때문에 이러한 성능 향상은 불가피하게 더 높은 전력 소비와 발열을 동반하게 되었다.
4) 서버 랙 구성의 변화
Blackwell GPU 자체적인 문제뿐 아니라, Blackwell 서버를 구성하기 위해 사용한 고밀도 서버 구성이 발열 문제를 악화시키는 것으로 보인다. NVIDIA는 72개의 Blackwell 프로세서를 탑재한 NVL72 서버 랙을 구성했는데, 이 서버랙은 최대 120kW의 전력을 소비한다. 이는 기존 데이터 센터 냉각 시스템의 한계를 크게 넘어서는 수준이다.
3. NVIDIA는 Blackwell의 발열 이슈를 해결하기 위해 어떤 조치를 취했는가?
1) 동적 열관리
Blackwell GPU는 700W에서 1,200W 사이에서 유연하게 전력을 조절할 수 있도록 설계되었다. 이를 통해 냉각 방식과 사용 환경에 따라 최적의 성능과 발열 관리가 가능해졌다. 또한, Nvidia는 동적 범위 관리 알고리즘을 Blackwell GPU에 통합했다. 이 알고리즘은 TensorRT-LLM 및 NeMo Megatron 프레임워크와 함께 작동하여 칩의 열 발생을 효율적으로 관리하게 된다.
2) 서버 랙 설계 변경
Nvidia는 공급업체들에게 서버 랙 설계를 여러 차례 변경하도록 요청하면서 Blackwell GPU를 위한 새로운 서버 랙 설계를 개발했다. 이는 72개의 Blackwell 칩을 탑재한 고밀도 서버 랙에서 발생하는 과도한 열 문제를 해결하기 위한 것이었다.
구체적으로는 다음과 같은 작업을 하였다.
- 랙 구조의 강화: Blackwell GPU의 높은 전력 소비와 발열량을 감당하기 위해 서버 랙의 구조를 크게 강화했습다. 100파운드 이상의 강철 보강재를 추가하여 랙의 강도와 안정성을 크게 높였으며, 랙 후면에 확장부를 추가하여 케이블 브레이싱과 매니폴드 피팅을 보호했다. 또한, 블라인드 메이트 슬라이드 레일과 래칭 기능을 도입하여 NVLink 설치와 액체 냉각 시스템 통합을 용이하게 했습니다
- 전력 공급 시스템 개선: 높은 전력 요구사항을 충족시키기 위해 전력 공급 시스템을 개선했다. 기존 ORV3와 동일한 폭을 유지하면서 깊이를 늘린 고용량 버스바를 개발했다. 새로운 버스바는 1,400암페어의 전류를 지원하여 기존 대비 2배 높은 전류 용량을 제공하게 된다.
- NVLink 카트리지 설계: 72개의 Blackwell GPU 간 고속 통신을 위해 4개의 NVLink 카트리지를 랙 후면에 수직으로 장착했다. 이를 통해 5,000개 이상의 액티브 구리 케이블을 수용할 수 있게 되었다.
- 액체 냉각 매니폴드 개선: 120kW의 냉각 용량을 효율적으로 관리하기 위해 향상된 Blind Mate Liquid Cooling Manifold 설계를 도입했다. 또한 Floating Blind Mate Tray 연결을 새롭게 개발하여 컴퓨트 및 스위치 트레이에 냉각수를 효과적으로 분배할 수 있게 했습다.
그러나, 그러한 변경만으로는 충분하지 않았던 것으로 보인다.
3) 냉각 시스템 개선
Nvidia는 기존의 공냉식 냉각 방식에서 액체 냉각 방식으로 전환하는 것을 대안으로 마련했다. 구체적으로 DLC(Direct-to-Chip Liquid Cooling) 방식을 채택했다. 이는 Blackwell 칩의 높은 전력 소비(GB200의 경우 최대 2,700와트/개)로 인한 발열 문제를 더 효과적으로 관리하기 위한 조치이다.
공랭식 구성일 경우 B100의 최대 소비 전력은 1,200W이지만, 14 petaFLOPS의 FP4 성능을 제공할 때 H100과 동일한 700W 전력 목표를 유지하는 형태로 세팅하고 있다. B100을 2개 결합한 B200은 공랭식으로 1,000W를 소비하며 18 petaFLOPS의 FP4 성능을 제공하도록 하고 있다.
하지만, 이것은 소비 전력을 맞추기 위해 성능을 제한하는 것이며, 최대 성능을 발휘하게 하기 위해서는 과도한 열을 효과적으로 냉각하기 위한 액체 냉각이 필요하다. 액체 냉각 구성시, 20 petaFLOPS의 FP4 성능을 제공할 때 1,200W의 열을 발생시키는 것으로 세팅하고 있다.
그러나, 이 부분 역시 쉬운 일은 아니다. 액체 냉각 방식은 내구성 측면에서 검증이 더 필요하며, 데이터센터 고객들이 냉각 설비를 위해 서버 도입 외 기반 공사를 위한 비용을 추가적으로 투자해야 하기 때문이다.
4) 클라우드 서비스 제공업체와의 협력
Nvidia는 주요 클라우드 서비스 제공업체들과 긴밀히 협력하여 엔지니어링 과정의 일부로 문제를 해결하고 있다. 이를 통해 실제 사용 환경에서의 피드백을 받아 설계를 개선하고 있다.
5) 칩 설계 개선
Nvidia CEO 젠슨 황은 Blackwell 칩의 설계 결함이 수개월 전에 이미 해결되었다고 밝혔다. 이는 칩 자체의 설계를 개선하여 발열 문제의 근본 원인을 해결하려는 노력을 보여주지만 정확하게 어떤 설계 결함이 있었고, 이를 어떻게 해결했는지는 정확하게 밝혀진 바는 없다.
6) 대체 기술 검토
발열 문제를 근본적으로 해결하기 위해 Nvidia는 실리콘 포토닉스와 같은 대체 기술을 검토하고 있다는 내용도 흘러나오고 있다. 이는 데이터 전송 방식을 변경하여 물리적, 열적 제약을 완화하려는 시도이지만, 아직은 성숙하지 않은 기술로 제품을 위한 양산 기술화하기에는 아직 많은 일이 남아있으며, 곧 출시해야 하는 Blackewell의 문제를 해결할 수 있는 타임라인은 아니다.
4. 아직 대안이 없는 이슈: CoWoS-L 패키징
CoWoS (Chip-on-Wafer-on-Substrate) 패키징 기술은 Nvidia Blackwell GPU의 발열 문제의 직접적인 원인은 아니지만, 이 기술의 복잡성과 고밀도 설계가 간접적으로 발열 문제에 기여하고 있다.
1) Blackwell 부터 적용된 CoWoS-L 패키징
Blackwell GPU는 TSMC의 CoWoS-L 패키징 기술을 사용하는 최초의 대량 생산 제품이다. 이 기술은 여러 칩을 하나의 패키지에 통합하여 고성능을 달성하지만, 동시에 열 관리의 복잡성을 증가시킵니다. 이전에도 NVIDIA는 HBM을 사용하기 위한 2.5D 패키징으로 CoWoS 패키징을 사용하였지만, CoWoS-S 패키징이었으며, CoWoS-L (Chip-on-Wafer-on-Substrate-Large) 기술은 NVIDIA의 Blackwell 아키텍처 GPU부터 본격적으로 사용되기 시작했다.
B100과 B200 GPU가 CoWoS-L 기술을 사용하는 NVIDIA의 첫 번째 대량 생산 제품이며, 이 GPU들은 두 개의 컴퓨트 칩렛을 하나의 패키지에 통합하며, 10 TB/s의 대역폭으로 상호 연결된다.
2) CoWoS-S와 CoWoS-L의 차이
CoWoS-S (Chip-on-Wafer-on-Substrate with Silicon Interposer)
- 실리콘 인터포저를 사용하여 여러 칩을 통합한다.
- Through-Silicon Vias (TSVs)를 통해 고속 전기 신호 전송을 실현한다.
- 단일 대형 실리콘 인터포저를 사용한다.
CoWoS-L (Chip-on-Wafer-on-Substrate with Local Silicon Interconnect)
- CoWoS-S와 InFO (Integrated Fan-Out) 기술의 장점을 결합했다.
- LSI (Local Silicon Interconnect) 칩을 사용하여 다이 간 연결을 제공한다.
- RDL (Redistribution Layer)을 사용하여 전력 및 신호 전달을 담당한다
성능과 확장성 측면에서 보면, CoWoS-L은 CoWoS-S보다 더 큰 패키지 크기와 더 많은 칩 통합을 지원하고, CoWoS-L은 1.5배 레티클 크기의 인터포저로 시작하여 더 큰 크기로 확장 가능하다. 또한, CoWoS-L은 최대 12개의 HBM3를 적층할 수 있어 메모리 대역폭이 더 높으며, CoWoS-L은 LSI 칩을 사용하여 더 높은 라우팅 밀도의 다이 간 연결을 제공한다.
하지만, CoWoS-L의 높은 집적도, 복잡한 구조, 높은 성능 요구사항, 그리고 현재의 기술적 한계로 인해 CoWoS-S에 비해 더 많은 열을 발생시킬 수 있다.
3) CoWoS-L이 더 많은 열을 발생시키는 이유
- 높은 집적도: CoWoS-L은 CoWoS-S보다 더 높은 집적도를 제공한다. 최대 12개의 HBM3 스택을 지원할 수 있어, 단위 면적당 더 많은 칩을 통합할 수 있습다. 이러한 고밀도 집적은 필연적으로 더 많은 열을 발생시킨다.
- 복잡한 구조: CoWoS-L은 LSI(Local Silicon Interconnect) 칩과 RDL(Redistribution Layer)을 사용하여 더 복잡한 구조를 가진다. 이러한 복잡성은 열 관리를 더 어렵게 만들 수 있다.
- 높은 성능: CoWoS-L은 더 높은 성능을 제공하도록 설계되었다. 높은 성능은 일반적으로 더 많은 전력 소비와 열 발생을 동반한다.
- 열 관리의 어려움: CoWoS-L 공정에는 기판 수준의 열 발산을 위한 그래파이트 필름이 포함되어 있지만, 일부 재료 변형 문제로 인해 열 관리에 어려움이 있다.
- 수율 문제: CoWoS-L의 수율은 현재 약 60% 수준으로, CoWoS-S의 90% 이상에 비해 낮다. 낮은 수율은 열 관리 문제와 연관될 수 있으며, 이는 더 많은 열 발생으로 이어질 수 있다.
- 열 팽창 계수 불일치: CoWoS-L 패키징에서 GPU 칩렛, LSI 브릿지, RDL 인터포저, 마더보드 기판 간의 열 팽창 계수 불일치로 인해 뒤틸림이 발생할 수 있다. 이러한 뒤틀림은 칩 간 연결을 손상시켜 열 전달을 방해하고 국부적인 과열을 유발할 수 있다.
서버의 구조를 바꾸는 거나 액침 냉각은 비교적 쉽게 할 수 있지만, 칩 구조의 근본이 되는 CoWoS-L을 변경하기는 어렵다. 또한 CoWoS-L이 갖는 문제점으로 인한 발열 이슈 또한 쉽게 해결되기는 어렵다. 따라서, 이로 인한 발열을 해결하기 보다는 발생하는 열을 식히기 위한 액침 냉각만이 단기적으로는 현실적인 솔루션이라고 할 수 있다.
출처: NVIDIA, TheRegister, Deepgadget, DigitimesAsia, Reuters, Investing.com 등
뜨리스땅
https://tristanchoi.tistory.com/675
'반도체, 소.부.장.' 카테고리의 다른 글
자동차 반도체 아키텍처와 국제 표준 - ISO26262 (1) | 2024.12.28 |
---|---|
구글 딥마인드, 반도체를 설계하는 AI - 'AlphaChip' 공개 (2) | 2024.09.30 |
AI반도체 설계 시 중요한 부분: 메모리 계층 구조 (5) | 2024.09.28 |
HBM을 처음으로 개발 요청한 것은 NVIDIA가 아닌 AMD (2) | 2024.09.28 |
SK하이닉스의 HBM3E 12단 양산 시작 (5) | 2024.09.26 |
댓글