본문 바로가기
반도체, 소.부.장.

Google TPU vs. NVIDIA GPU: AI 인프라 우수성은 Chip이 아니라 시스템

by 뜨리스땅 2025. 12. 4.
728x90
반응형

1. AI 시대의 인프라, 칩을 넘어 시스템으로

 

AI 시대의 도래와 함께 소프트웨어의 비용 구조는 전통적인 패러다임에서 크게 벗어나고 있습니다. AI 소프트웨어의 경우, 과거와 달리 개발자 인건비보다는 그 기반이 되는 하드웨어 인프라 비용이 더 큰 영향을 미칩니다.

 

따라서 AI 애플리케이션의 성공적인 배포와 확장을 위해서는 개별 칩의 마이크로아키텍처 성능을 넘어, 전체 시스템 아키텍처를 최적화하는 것이 무엇보다 중요해졌습니다. 인프라에서 우위를 점하는 기업이 곧 AI 애플리케이션 경쟁에서도 우위를 확보하게 될 것입니다.

 

Google은 이러한 변화를 일찍이 2013년에 감지했습니다. 당시 AI 기술을 대규모로 배포하려면 데이터센터 수를 두 배로 늘려야 한다는 결론에 도달했고, 이는 AI 전용 하드웨어인 TPU(Tensor Processing Unit) 개발의 시발점이 되었습니다. 이는 같은 시기 Amazon이 범용 컴퓨팅 최적화를 위한 Nitro 프로그램을 시작하는 등 다른 기술 대기업들이 다른 방향에 집중했던 것과는 근본적으로 다른 선택이었습니다.

 

 

이처럼 Google의 선구적인 시스템 수준의 비전은 GPU 시장 선두주자인 NVIDIA가 다양한 워크로드에 대응 가능한 고성능 칩을 중심으로 시스템을 구성하는 방식과는 다른 설계 철학의 토대가 되었으며, 이는 현재 AI 인프라 시장의 경쟁 구도를 형성하는 핵심적인 차이로 이어졌습니다.

 

개별 칩의 성능 수치를 넘어, Google TPU와 NVIDIA GPU를 '시스템' 관점에서 심층적으로 비교해볼 필요가 있습니다. 특히 대규모 AI 모델 학습의 성패를 좌우하는 시스템 아키텍처와 확장성, 그리고 그 기반이 되는 네트워킹 기술을 중심으로 두 시스템의 근본적인 차이와 전략적 의미를 생각해봐야 합니다.

 

2. 시스템 아키텍처 및 확장성 비교 분석

 

대규모 AI 모델, 특히 초거대 언어 모델(LLM)의 학습에는 수천 개의 가속기를 몇 주 또는 몇 달 동안 안정적으로 운영할 수 있는 확장성이 필수적입니다.

 

시스템의 확장성은 단순히 더 큰 모델을 학습시킬 수 있는 능력을 넘어, 전체 인프라의 총소유비용(TCO)과 직결되는 핵심 요소입니다. 따라서 AI 인프라 경쟁력을 평가할 때는 개별 칩이 아닌, 시스템 전체를 어떻게 설계하고 확장하는지를 살펴보아야 합니다.

 

 

Google과 NVIDIA는 시스템을 구성하는 기본 단위에서부터 뚜렷한 차이를 보입니다.

 

NVIDIA는 통상적으로 8개의 GPU가 탑재된 '서버'를 기본 구성 단위로 사용합니다. 반면, Google은 이보다 훨씬 큰 규모인 64개의 TPU 칩으로 구성된 '슬라이스(slice)'를 배포의 기본 단위로 정의합니다. 이러한 설계 철학의 차이는 최대 확장 가능한 시스템 규모에서 극명하게 드러납니다.

구분 Google TPUv4 시스템 NVIDIA H100 시스템
기본 구성 단위 슬라이스 (64 TPU) 서버 (8 GPU)
최대 확장 규모 4,096 칩 (단일 Pod) 256 칩 (단일 SuperPod)

 

위 표에서 볼 수 있듯, 2020년에 발표된 Google의 TPUv4 Pod는 단일 시스템으로 4,096개의 칩을 연결할 수 있는 반면, 2023년 기준 NVIDIA의 H100 SuperPod는 256개의 GPU까지 확장됩니다.

 

Google은 TPUv2에서 256개, TPUv3에서 1,024개, 그리고 TPUv4에서 4,096개로 꾸준히 확장성을 늘려왔습니다. 주목할 점은 Google이 2017년의 TPUv2로 달성한 확장성(256개 칩)을 NVIDIA는 2023년 현재 최신 H100 시스템에서야 제공한다는 사실입니다. 이는 Google이 시스템 확장성 측면에서 수년 앞서나갔음을 시사합니다.

 

이러한 압도적인 확장성의 차이를 가능하게 하는 핵심 기술은 바로 네트워킹입니다. 

 

3. 네트워킹 기술 심층 분석: 3D 토러스와 Clos 네트워크

 

수천 개의 칩이 하나의 작업을 위해 유기적으로 동작하는 대규모 AI 클러스터에서 칩 간 통신, 즉 네트워킹은 전체 시스템의 성능을 좌우하는 병목 지점이자 막대한 비용을 유발하는 요인이 될 수 있습니다. Google과 NVIDIA는 이 네트워킹 문제를 해결하기 위해 근본적으로 다른 토폴로지와 하드웨어를 채택했으며, 이는 각 시스템의 성능, 비용, 유연성에 지대한 영향을 미칩니다.

 

3.1. 토폴로지 철학: Google의 3D 토러스 vs. NVIDIA의 Clos 네트워크

 

네트워크 토폴로지는 칩들을 연결하는 구조적 설계도를 의미합니다. Google은 3D 토러스(3D Torus) 토폴로지를 사용합니다. 이는 칩(노드)들을 3차원 격자 형태로 배열하고, 각 노드가 상하, 좌우, 앞뒤의 6개 이웃 노드와 직접 연결되는 구조입니다. 이 구조는 마치 도넛처럼 각 차원의 끝이 서로 연결되어 루프를 형성합니다.

 

반면, NVIDIA는 데이터센터 네트워킹에서 널리 사용되는 Clos 네트워크(Clos Network) 토폴로지를 채택합니다. 이는 여러 단계의 스위치를 통해 모든 입출력 단자 간에 충돌이나 차단 없이 완전한 대역폭 연결을 보장하는 '무손실(non-blocking)' 설계를 특징으로 합니다.

 

두 토폴로지는 각각 뚜렷한 장단점을 가집니다.

항목 3D 토러스 (Google) Clos 네트워크 (NVIDIA)
지연 시간 (Latency) 이웃 노드 간 짧고 직접적인 연결로 지연 시간 최소화 '무손실(non-blocking)' 설계로 예측 가능하고 일관된 성능 보장
확장성 (Scalability) 확장 시 전체 토폴로지 재구성이 필요하여 복잡성이 높음 리프(Leaf) 스위치 추가가 용이하여 확장이 비교적 간단
비용 효율성 훨씬 적은 수의 스위치를 사용하므로 비용 절감 효과가 큼 더 많은 스위치와 광학 장비가 필요하여 비용이 높을 수 있음
로드 밸런싱 다수의 통신 경로를 제공 더 많은 대체 경로를 제공하여 로드 밸런싱에 유리

 

 

3.2. 핵심 하드웨어 및 비용 구조: OCS와 InfiniBand 스위치

 

Google은 3D 토러스 토폴로지를 구현하기 위해 자체 개발한 '광학 회로 스위치(Optical Circuit Switch, OCS)'를 사용합니다. OCS의 가장 큰 특징은 전기 신호를 광 신호로 변환하는 과정 없이, 빛의 경로를 물리적으로 전환하여 신호가 처음부터 끝까지 광학 영역에만 머무르게 한다는 점입니다. 이는 전력 소비를 획기적으로 줄이는 핵심 요소입니다.

 

4,096개의 칩을 연결하는 시나리오를 기준으로 비교하면, Google 시스템은 단 48개의 OCS만으로 전체 네트워크를 구성할 수 있습니다. 반면, 동일한 규모를 NVIDIA의 InfiniBand 솔루션으로 구축할 경우 약 568개의 스위치가 필요합니다.

 

흥미로운 점은, Google의 개별 OCS는 NVIDIA의 InfiniBand 스위치보다 제조 원가가 최대 14배 더 비싸다는 사실입니다. 하지만 필요한 스위치의 수가 11.8배나 적고 추가적인 광 트랜시버의 필요성을 줄임으로써, Google은 오히려 총 시스템 비용에서 압도적인 우위를 확보하는 전략적 선택을 했습니다.

 

Google은 이러한 OCS와 3D 토러스 토폴로지의 조합 덕분에 네트워킹 관련 비용을 전체 TPU 슈퍼컴퓨터 자본 비용의 5% 미만, 총 전력 소비의 3% 미만으로 유지할 수 있었다고 밝혔습니다. 이는 대규모 시스템에서 네트워킹이 차지하는 막대한 비용과 전력 부담을 고려할 때 놀라운 수준의 효율성입니다.

 

3.3. 장애 극복 및 유연성: OCS의 전략적 가치

 

3D 토러스 토폴로지는 구조상 하나의 노드에 장애가 발생하면 그 영향이 주변으로 퍼져나가기 쉽다는 잠재적 약점을 가집니다. 실제로 OCS가 없다면, 2,000개 이상의 TPU를 사용하는 대규모 작업에서 호스트 가용성이 99.9%라 할지라도 실제 유효 처리량(goodput)은 50% 수준으로 급격히 떨어질 수 있습니다. 즉, OCS는 3D 토러스 토폴로지의 가장 큰 약점인 장애 전파 문제를 정면으로 해결하고, 대규모 시스템의 안정성을 보장하는 핵심 기술입니다.

 

Google의 OCS는 장애가 발생한 노드를 감지하고 네트워크 경로를 동적으로 재구성하여 문제가 된 노드를 실시간으로 우회(routing around)합니다. 덕분에 전체 시스템은 일부 노드의 장애에도 불구하고 중단 없이 작업을 계속할 수 있어 안정성과 작업 성공률이 극적으로 향상됩니다. 이는 문제가 생길 때마다 작업을 중단하고, 상태를 저장한 뒤(체크포인팅), 문제 노드를 제외하고 재시작해야 하는 NVIDIA 방식의 오버헤드와 비교했을 때 큰 장점입니다.

 

 

더 나아가, OCS는 소프트웨어 제어를 통해 네트워크 토폴로지를 즉석에서 변경하는 유연성을 제공합니다. 예를 들어, 특정 모델 아키텍처에 더 효율적인 '뒤틀린 토러스(twisted torus)'와 같은 커스텀 토폴로지를 동적으로 구성할 수 있습니다. 실제 데이터에 따르면, 일반적인 4x4x8 토러스 구성의 'All-to-all' 처리량이 40.0 GB/sec였던 반면, 뒤틀린 토러스 구성에서는 65.4 GB/sec로 성능이 크게 향상되었습니다.

 

이처럼 OCS는 단일 하드웨어 배포 환경에서 다양한 AI 워크로드에 최적화된 성능을 제공하는 Google의 핵심 경쟁력입니다. 이러한 인프라의 유연성은 실제 AI 워크로드, 특히 Google의 핵심 비즈니스와 직결된 특정 모델을 처리할 때 더욱 빛을 발합니다.

 

 

4. 워크로드 최적화 및 특화 아키텍처 분석

 

모든 워크로드에 완벽한 범용 인프라를 구축하는 것은 사실상 불가능합니다. 따라서 AI 인프라 전략은 범용성과 특정 워크로드에 대한 최적화 사이에서 균형을 찾아야 합니다. Google은 자사의 핵심 비즈니스를 지탱하는 특정 워크로드에 맞춰 하드웨어를 고도로 특화시키면서도, 앞서 설명한 OCS를 통해 시스템 전반의 유연성을 유지하는 독창적인 전략을 구사합니다.

4.1. DLRM 처리를 위한 특화 유닛: Google의 SparseCore

광고, 검색, 콘텐츠 추천 등 수조 달러 규모의 비즈니스는 딥러닝 추천 모델(Deep Learning Recommendation Models, DLRM) 이라는 AI 모델에 의해 구동됩니다. DLRM은 현재 업계에서 가장 큰 규모의 AI 모델 아키텍처로, 가장 큰 모델의 경우 메모리 요구량이 10TB를 초과하여 GPT-4와 같은 1TB+ 규모의 거대 언어 모델을 압도하기도 합니다. 이 엄청난 규모는 DLRM 처리를 위한 하드웨어 특화가 선택이 아닌 필수임을 시사합니다.

 

 

DLRM의 가장 큰 특징은 계산 프로파일이 기존 AI 모델과 다르다는 점입니다. DLRM은 사용자 행동과 같은 희소한(sparse) 데이터를 처리하기 위해 '임베딩(Embedding)' 조회 작업에 크게 의존하는데, 이는 본질적으로 메모리 대역폭이 성능을 좌우하는 작업입니다. 기존 GPU나 TPU의 텐서코어(TensorCore)는 밀집된(dense) 행렬 연산에 최적화되어 있어, 이러한 임베딩 처리에는 비효율적입니다.

 

이 문제를 해결하기 위해 Google은 TPU 내부에 '스파스코어(SparseCore)' 라는 전용 하드웨어 유닛을 탑재했습니다. 스파스코어는 오직 DLRM의 임베딩 처리를 가속화하기 위해 설계된 특화 유닛으로, 전체 칩 면적과 전력의 약 5%만을 차지하면서도 엄청난 성능 향상을 가져옵니다.

 

실제 성능 데이터에 따르면, TPUv4의 스파스코어를 사용했을 때, 임베딩 테이블을 CPU의 메인 메모리에 두고 처리하는 방식에 비해 무려 7배의 성능 향상을 보였습니다. 이는 핵심 워크로드에 대한 하드웨어-소프트웨어 공동 최적화의 성공적인 사례입니다.

 

4.2. 아키텍처 접근 방식: 맞춤형 유연성 vs. 다품종 범용성

 

Google의 접근 방식은 매우 전략적입니다. 물리적으로는 4,096개 TPU로 구성된 단일 표준 배포(SKU)를 유지하면서, OCS를 통해 소프트웨어적으로 30가지가 넘는 다양한 네트워크 토폴로지와 칩 구성을 사용자에게 제공합니다. 이는 재고 관리 단위를 최소화하여 전체 인프라의 가동률을 극대화하여 총소유비용(TCO)을 절감하는 동시에, 내부 사용자들에게는 각자의 모델에 최적화된 '맞춤형' 인프라를 제공하는 효과를 낳습니다.

 

이는 다양한 외부 고객의 요구를 충족시켜야 하는 NVIDIA의 전략과 뚜렷하게 대비됩니다. NVIDIA는 메모리 용량이나 통합 옵션(예: Grace Hopper Superchip)이 다른 다양한 SKU를 제공함으로써 시장의 광범위한 요구에 대응하는 '다품종' 전략을 취하고 있습니다.

 

두 접근 방식은 각자의 비즈니스 환경에 맞춰 진화한 결과입니다. Google의 방식은 예측 가능한 내부 핵심 워크로드를 중심으로 인프라 효율성을 극대화하는 데 적합하며, NVIDIA의 방식은 예측 불가능하고 다양한 외부 시장의 요구를 만족시키는 데 유리합니다.

 

 

5. 기술 리더를 위한 전략적 시사점

 

이제까지의 설명을 통해 AI 인프라의 경쟁력이 더 이상 개별 칩의 연산 성능(TFLOPS)에만 국한되지 않는다는 점이 명확해졌습니다. 진정한 경쟁 우위는 수천 개의 칩을 하나의 시스템으로 묶어내는 확장성, 비용 효율적인 네트워킹, 특정 워크로드에 대한 최적화, 그리고 변화하는 모델 아키텍처에 대응할 수 있는 유연성을 포함한 통합적인 시스템 설계에서 비롯됩니다.

 

AI 인프라 전략을 수립하는 기술 리더의 관점에서 두 시스템의 핵심적인 강점과 고려사항은 다음과 같이 요약할 수 있습니다.

  • Google TPU 시스템:
    • 강점: 4,096개 이상의 칩을 지원하는 압도적인 확장성, 네트워킹을 포함한 전체 시스템의 TCO 최적화, DLRM과 같은 핵심 워크로드에 대한 전용 하드웨어 가속(SparseCore), OCS를 통한 동적이고 유연한 토폴로지 구성 능력.
    • 고려사항: 특정 내부 워크로드에 고도로 최적화되어 있어 범용성이 상대적으로 제한될 수 있으며, 외부 클라우드 고객을 위한 소프트웨어 생태계(CUDA와 비교 시)의 성숙도와 범용성이 아직 NVIDIA에 미치지 못할 수 있다.
  • NVIDIA GPU 시스템:
    • 강점: 광범위한 AI 워크로드에 대한 높은 범용성, 수십 년간 축적된 성숙하고 방대한 소프트웨어 생태계(CUDA), 다양한 고객 요구에 맞춘 다수의 하드웨어 옵션(SKU) 제공.
    • 고려사항: 수천 개 이상의 초대규모로 확장 시 네트워킹 비용 및 복잡성이 크게 증가할 수 있으며, DLRM 임베딩과 같은 특정 워크로드에 대한 전용 하드웨어 가속 기능은 부재.

궁극적으로 어떤 솔루션이 더 나은지는 하나의 정답이 있는 문제가 아닙니다. 핵심 AI 워크로드가 무엇인지, 요구되는 확장 규모가 어느 정도인지, 비용 민감도와 개발 생태계에 대한 의존도 등 여러 요소를 종합적으로 고려하여 자사에 가장 적합한 전략적 선택을 내리는 것이 중요합니다.

 

이 글이 그 판단을 위한 깊이 있는 통찰을 제공하기를 바랍니다.

 

 

출처: Semianalysis, Google

 

뜨리스땅

728x90
반응형

댓글