텐스토렌트의 AI 반도체는 NVIDIA GPU의 대안이 될 수 있는가?

728x90

1. 기본적인 가능성

AI 반도체는 현재 AWS, M/S, Google과 같은 하이퍼스케일러 클라우드 업체들에서 주로 수요를 만들어내고 있다. 향후 AI 반도체 시장이 성숙함에 따라, on-prem 형 엣지 AI나 온디바이스 AI 시장도 성장하겠지만, 당분간은 클라우드 기반의 시장이 주요 수요 시장이 될 것이다.

따라서, 짐 켈러의 텐스토렌트에서 만드는 AI반도체가 NVIDIA GPU의 대안이 되기 위해서는 하이퍼스케일러 클라우드 업체들의 시스템에서 사용될 수 있는지 여부가 중요하다.

하지만, 켈러 CEO는 "엔비디아가 미처 공략하지 못한 다양한 AI 시장이 존재한다"며, 스마트폰, 전기차, 클라우드 서비스 등 AI 활용 범위가 확대되면서 더 저렴한 솔루션에 대한 수요가 급증하고 있다고 강조하여서 하이퍼스케일러 외 다른 시장도 염두해 두고 있는 것으로 보인다.

켈러 CEO는 "AI 기술 발전과 활용 분야는 예측 불가능하다"며 "다양한 제품에 적합한 기술 개발이 우리의 전략"이라고 강조했다. 그는 텐스토렌트가 엔비디아를 대체하기보다는 엔비디아가 미처 공략하지 못한 다양한 AI 시장을 개척해 나갈 것이라고 포부를 밝혔다.

일단 다음과 같은 관점에서 유리한 측면은 있다.

1. 에너지 효율성

텐스토렌트의 반도체는 RISC-V 아키텍처를 기반으로 하여 높은 에너지 효율성을 제공한다. 이는 대규모 데이터 센터의 전력 소비를 줄이는 데 도움이 될 수 있어 하이퍼스케일러들에게 매력적인 옵션이 될 수 있다.

2. 비용 효율성

텐스토렌트는 엔비디아 GPU와 HBM(고대역 메모리)이 필요 없는 AI 반도체를 개발하는 것을 목표로 하고 있다. 이는 하드웨어 비용을 크게 절감할 수 있어 클라우드 제공업체들의 운영 비용을 낮출 수 있다.

텐스토렌트는 올해 말 2세대 다목적 AI 칩을 출시할 예정이다. 이 칩은 일부 영역에서 엔비디아의 AI GPU보다 에너지 및 처리 효율이 뛰어나며, 가격은 33% 저렴하다. 텐스토렌트는 고대역폭 메모리(HBM)를 사용하지 않고 GDDR6라는 메모리를 사용하는데, 이러한 차별화된 설계 방식을 통해 이러한 성과를 달성했다.

HBM은 AI 칩 성능 향상에 중요한 역할을 하지만, 높은 에너지 소비와 가격 상승의 주범으로 꼽힌다. 텐스토렌트의 반도체는 HBM 없이도 데이터 전송 속도를 획기적으로 줄일 수 있는 칩 설계 기술을 개발했다고 밝혔다.

3. 성능

텐스토렌트의 AI 가속기 '웜홀'은 높은 연산 성능을 제공한다. 예를 들어, 그레이스컬 모델은 INT8에서 1초당 최대 315조 회의 연산(TOPS)이 가능하다. 물론 이러한 성능은 현재 NVIDIA의 주력 GPU 제품인 H100에 비해서는 1:1 비교 시 성능이 열위이기는 하지만, 병렬 컴퓨팅으로 시스템을 구성할 수 있기 때문에, 투자 금액 대비 구현 가능한 성능 측면에서는 뒤처지지 않는다.

최근 리벨리온, 퓨리오사AI등 국내 AI 반도체 스타트업들이 제품을 출시하고 있는데, 이들 제품은 이미 만들어진 AI 모델을 사용하는 '추론'연산만 가능하고, AI 모델을 만들기 위한 '학습'연산은 불가능하거나, 매우 비효율적이라서 사실상 사용이 불가능하다. 그러나, 텐스토렌트의 AI 반도체는 NVIDIA의 GPU 처럼 학습과 추론 연산 모두가 가능한 모델이라, 국내 AI 반도체 스타트업 제품들과는 차별화된다.

4. 유연성

텐스토렌트의 인공지능 반도체는 CPU에 수백 개의 코어가 연산을 나눠 담당하는 독립적인 구조를 갖추고 있기 때문에 인공지능 관련 연산과 작업에 최적화돼 있다. 또한 다양한 장치와 데이터센터에 맞게 조정할 수 있어 광범위한 애플리케이션에 적합하고 유연성을 제공할 수 있다.

데이터서버와 같이 고성능 연산이 필요한 분야에서는 텐스토렌트 인공지능 반도체 100개를 동시에 사용할 수 있어 폭넓은 활용성도 갖추고 있기도 하다.

짐 켈러는 앞으로 텐스토렌트를 비롯한 여러 기업이 엔비디아 반도체 수요를 대체하는 흐름이 뚜렷해질 것이라며 시장 변화에 유연하게 대응하겠다는 계획을 전했다.

텐스토렌트 반도체의 핵심적인 특징인 RISC-V 기반의 오픈 소스 아키텍처 역시 유연성을 만들어내는 중요한 요인디다. 이러한 개방형 아케텍처를 사용함으로써, 하이퍼스케일러들은 자신들의 특정 요구사항에 맞게 하드웨어를 커스터마이즈할 수 있는 유연성을 얻을 수 있기 때문이다.

2. 아키텍처에 대한 이야기

2.1. RISC-V 아키텍처의 주요 특징

1) 개방형 구조와 커스터마이즈 가능성

- 오픈 소스: RISC-V는 오픈 소스 명령어 집합 아키텍처(ISA)로, 사용자는 라이선스 비용 없이 자유롭게 사용할 수 있다. 이는 개발자와 기업이 비용을 절감하고, 자유롭게 아키텍처를 수정 및 확장할 수 있는 장점을 제공한다.

- 높은 커스터마이즈 가능성: RISC-V는 특정 워크로드나 산업에 맞춰 프로세서를 최적화할 수 있는 유연성을 제공한다. 이는 다양한 요구에 맞춰 맞춤형 솔루션을 개발할 수 있게 한다.

2) 단순성과 모듈성

RISC-V 아키텍처는 단순하고 모듈화된 설계를 강조하여, 복잡한 프로세서에 비해 전력 효율성을 개선할 수 있습다. 이는 특히 에너지 효율이 중요한 모바일 및 임베디드 시스템에서 유리하다.

3) 투명성

RISC-V의 투명한 구조는 보안 연구와 검증에 유리하다. 개발자들은 아키텍처의 소스코드 수준까지 검토할 수 있어서, AI 시스템의 보안성과 신뢰성을 높일 수 있다.

4) 확장성과 유연성

RISC-V는 다양한 크기와 성능 요구에 맞춰 쉽게 확장할 수 있는 구조를 가지고 있다. 이는 다양한 하드웨어 플랫폼에서의 적용을 용이하게 한다. 또한, 전 세계의 개발자 커뮤니티와 협력하여 혁신을 촉진할 수 있는 환경을 제공한다.

이러한 장점들은 텐스토렌트가 RISC-V 기반 아키텍처를 채택하여 AI 및 고성능 컴퓨팅(HPC) 분야에서 경쟁력을 갖추는 데 기여한다. RISC-V의 유연성과 개방성은 특히 빠르게 변화하는 기술 환경에서 중요한 이점으로 작용한다.

2.2. RISC와 CISC의 차이

RISC(Reduced Instruction Set Computer) 아키텍처는 CISC(Complex Instruction Set Computer) 아키텍처에 비해 명령어 세트의 수가 적음에도 불구하고 성능 저하가 발생하지 않는다.

1) 단순한 명령어와 빠른 실행

RISC 아키텍처는 단순하고 최적화된 명령어 세트를 사용하여 각 명령어가 한 클록 사이클 내에 실행되도록 설계되었다. 이는 명령어의 복잡성을 줄이고, 명령어 디코딩 및 실행을 더 빠르게 만들어 줍니다. 결과적으로, RISC 프로세서는 명령어를 더 빠르게 처리할 수 있다.

2) 파이프라이닝

RISC 프로세서는 파이프라이닝을 통해 성능을 향상시킨다. 파이프라이닝은 명령어 실행을 여러 단계로 나누어 여러 명령어를 동시에 처리할 수 있게 하는 기술이다. 각 파이프라인 단계는 서로 다른 명령어에 할당되어 전체 프로그램의 실행 시간을 줄인다.

3) 다수의 레지스터 사용

RISC 아키텍처는 다수의 레지스터를 사용하여 메모리 접근을 최소화하고, 데이터 전송 속도를 높인다. 이는 메모리 접근에 소요되는 시간을 줄이고, 프로세서의 전반적인 속도를 향상시킨다.

4) 효율적인 컴파일러 설계

RISC 아키텍처는 컴파일러가 명령어를 효율적으로 변환할 수 있도록 설계되어 있다. 이는 복잡한 작업을 여러 개의 간단한 명령어로 분할하여 처리할 수 있게 하며, 전반적인 성능을 높인다.

이러한 요소들은 RISC 프로세서가 CISC에 비해 명령어 세트가 단순하고 적음에도 불구하고 높은 성능을 유지할 수 있게 한다. RISC의 설계 철학은 하드웨어를 단순화하고, 소프트웨어의 최적화를 통해 성능을 극대화하는 데 중점을 두고 있다.

2.3. RISC-V 기반 제품

RISC-V 기반 프로세서는 다양한 제품과 산업에서 사용되고 있으며, 그 활용 범위는 계속해서 확장되고 있다.

1) 임베디드 시스템 및 IoT

SiFive는 RISC-V 기반의 마이크로컨트롤러와 SoC(System-on-Chip)를 제공하며, 임베디드 시스템과 IoT 장치에 널리 사용된다. 이들은 효율적인 전력 소비와 성능을 제공하여 소형 기기에서 인기를 끌고 있다.

2) 자동차

NXP Semiconductors: NXP는 RISC-V 기반의 마이크로컨트롤러를 자동차 애플리케이션에 통합하여 ADAS(첨단 운전자 보조 시스템), 전기 파워트레인, 차체 제어 모듈 등을 지원한다. 이는 실시간 처리와 안전성 요구를 충족시키는 데 유리하다.

3) 인공지능 및 머신러닝

Esperanto Technologies: 이 회사는 RISC-V 기반의 AI 가속기를 개발하여 신경망 처리와 자연어 처리와 같은 작업에서 높은 성능과 에너지 효율성을 제공한다.

4) 고성능 컴퓨팅(HPC)

European Processor Initiative (EPI): EPI는 차세대 HPC 프로세서에 RISC-V를 채택하여 과학 연구와 시뮬레이션을 위한 엑사스케일 컴퓨팅 능력을 제공할 계획이다.

5) 네트워킹 및 스토리지

Western Digital: Western Digital은 RISC-V 기반의 컨트롤러를 스토리지 제품에 사용하여 성능과 신뢰성을 향상시키고 있다.

3. 텐스토렌트의 제품 라인업

텐스토렌트의 제품 라인업은 현재 주로 AI 가속기에 집중되어 있으며, 주요 제품으로는 그레이스컬(Grayskull)과 웜홀(Wormhole)이 있다. RISC-V 기반의 아키텍처로 구성되어 있는데, 아키텍처 자체가 진화하고 있다.

3.1. RISC-V를 활용한 텐스토렌트 아키텍처의 주요 특징

1) 타일 기반 구조

텐스토렌트의 아키텍처는 12x12 타일 그리드로 구성되며, 각 타일은 Tansix 코어로 불린다. 각 코어는 5개의 RISC-V RV32IMC 코어를 포함하며, 데이터 이동을 위한 NoC(네트워크 온 칩)와 연산을 위한 코어로 나뉜다. 이 구조는 불필요한 데이터 이동을 줄이고, 계산을 최적화하는 데 중점을 둔다.

2) 확장 가능성

텐스토렌트는 칩 간 100G 이더넷을 통해 여러 텐스토렌트 칩을 연결하여 컴퓨팅을 분산할 수 있는 기능을 제공합니다. 이는 특히 대규모 AI 모델의 효율적인 실행을 가능하게 한다.

3) 유연성과 프로그래머블성

텐스토렌트의 아키텍처는 현재 AI 모델에서 높은 성능을 제공할 뿐만 아니라, 미래의 AI 모델과 HPC 애플리케이션을 위한 유연성과 프로그래머블성을 제공한다.

3.2. 주요 제품

그레이스컬(Grayskull)

1) 기술적 기반: RISC-V 아키텍처를 기반으로 하며, 오픈 소스 특성을 활용해 다양한 커스터마이즈가 가능함
2) 제품 구성 및 성능:
- 120개 Tensix 코어 사용
- 12nm 공정 사용
- INT8 기준 1초당 최대 315조 회의 연산 (315 TOPS)과 FP8 기준 276 TFLOPS의 연산이 가능
- PCIe Gen4 슬롯을 사용, 16 lanes
- 8 channels, LPDDR4
3) 활용 분야: 이미지 인식, 자연어 처리, 로봇 제어 등 다양한 AI 분야에서 활용될 수 있으며, 특히 대규모 모델 추론에 적합함

웜홀(Wormhole)

1) 기술적 기반: RISC-V 아키텍처를 기반으로 하며, 오픈 소스 특성을 활용해 다양한 커스터마이즈가 가능함
2) 성능:
- 80개 Tensix+ 코어 사용
- 12nm 공정
- FP8 기준 292 TFLOPS, INT8 기준 350 TOPS 연산 성능을 보유
- PCIe Gen4 x 16 인터페이스와 400GbE 연결을 통해 다른 기기와 연결됨
- 6 채널, GDDR6 메모리를 사용함.

3) 제품 구성
AI 가속기 카드 제품
- 72개의 텐식스 코어를 갖춘 웜홀 n150: 카드 1개에 chip 1개 장착, $999
- 128개의 코어를 갖춘 웜홀 n300: 카드 1개에 chip 2개 장착, $1,399

Workstation type 시스템 제품
- 공냉식 시스템인 라우드박스(LoudBox): 8개의 n150이 탑재된 개발자용 워크스테이션, $12,000
- 수냉식 시스템인 콰이어트박스(QuietBox): 8개의 n300이 탑재된 개발자용 워크스테이션, $15,000

블랙홀(Black Hole)

- 140개 Tensix++ 코어 사용
- 6nm 급 공정 사용 예정, 600mm2의 footprint
- 24개의 SiFive X280 RISC-V 코어와 3세대 Tensix 코어를 결합한 독립형 CPU+ML 솔루션
- INT8 기준 1 POPS, FP8 기준 790 TFLOPS 컴퓨팅 처리량을 제공한다(이전 제품 대비 3배 성능).
- 8개의 GDDR6 메모리 채널과 SERDES 48 lane 보유
- 1200 Gb/s 이더넷 연결을 갖추고 있으며, PCIe Gen5 레인을 지원

퀘이사(QuasarB)

- AI 추론 작업에 최적화되어 있음
- 비차단 Die-to-Die 인터페이스 탑재하고 있어, 텐스토렌트의 CPU chiplet과 쉽게 연동될 수 있음
- 최소 80개의 Tensix 코어를 포함하는 단일 칩렛으로 그렌델에 비해 단순하고 저비용, 저전력 솔루션으로 설계
- 칩렛 비즈니스용 컴포넌트로 활용 예정
- BF4, BF8, INT8, FP16, BF16 등 다양한 데이터 형식을 지원하여 AI 워크로드에 최적화됨
- FP8 기준 328 TFOPS 성능 예상
- 2024년 말 출시 예정
- 삼성파운드리의 텍사스 테일러 공장의 4nm 4세대 공정(SF4X)을 사용하여 제조예정

그렌델(Grendel)

- AI 학습과 추론 모두를 지원하는 범용적인 시스템 지향
- 멀티 칩렛 솔루션
- 자체 RISC-V 마이크로아키텍처를 특징으로 하는 Ascalon 범용 코어 (8-wide 디코딩)
- Tensix 기반 AI 가속 칩렛 사용
- CPU chiplet(Aegis), AI chiplet, 메모리 인터페이스 및 3차 cache chiplet으로 구성되어, 여러 칩렛을 조합하여 큰 규모의 시스템 구성하는 멀티 칩렛 설계로 CPU와 AI 가속기를 결합한 시스템
- AI 워크로드를 위한 병렬 처리와 확장성을 제공
- 고성능 지향 시스템
- 2025년 말 출시 예정
- 일본 LSTC와 협력하여 2nm 기반으로 AI 가속기 생산 예정

4. 텐스토렌트의 든든한 지원군: SiFive

SiFive와 Tenstorrent는 협력 관계를 맺고 있으며, 특히 AI 프로세서 개발에서 SiFive의 RISC-V 기반 기술을 활용하고 있다. Tenstorrent는 SiFive의 최신 RISC-V CPU 디자인인 SiFive Intelligence X280 프로세서를 라이선스하여 자사의 AI 훈련 및 추론 칩에 통합하고 있습다.

이 협력은 Tenstorrent의 고유한 Tensix 코어와 SiFive의 X280 코어를 결합하여 차세대 AI 워크로드를 처리할 수 있는 이종 멀티코어 컴퓨팅 솔루션을 개발하는 데 중점을 두고 있다. SiFive의 X280 코어는 64비트 멀티코어 RISC-V CPU 디자인으로, 벡터 수학 확장을 지원하여 머신러닝 애플리케이션을 가속화하는 데 유용하다.

이러한 협력은 Tenstorrent가 점점 더 복잡해지는 신경망을 효과적으로 처리할 수 있는 전문화된 프로세서를 제공하고자 하는 목표와 일치하며, SiFive의 RISC-V 기술을 활용하여 혁신적인 AI 솔루션을 개발하는 데 기여하고 있다.

Tenstorrent는 이 X280 프로세서를 자사의 AI 훈련 및 추론 칩에 통합하여, 다음과 같은 방식으로 활용한다.

1. 벡터 연산 가속화: X280의 벡터 수학 확장은 머신러닝 애플리케이션에서 필수적인 벡터 연산을 가속화하여, AI 모델의 추론 및 훈련 성능을 향상시킨다.

2. 이종 멀티코어 컴퓨팅: Tenstorrent는 X280 코어를 자사의 Tensix 코어와 결합하여, 다양한 AI 워크로드를 효과적으로 처리할 수 있는 이종 멀티코어 컴퓨팅 환경을 구축한다. Tensix 코어는 주로 신경망 처리에 집중하고, X280 코어는 벡터 연산 및 애플리케이션 코드 실행을 담당한다.

3. 확장성과 유연성: X280의 멀티코어 설계는 다양한 AI 애플리케이션의 요구에 맞춰 확장 가능하며, Tenstorrent의 프로세서가 다양한 환경에서 효율적으로 작동할 수 있도록 지원한다.

출처: 끌리앙, tom's hardware, quasar존, 디일렉, the register, 다수의 웹사이트

뜨리스땅