본문 바로가기
반도체, 소.부.장.

엔비디아 대항마? - 삼바노바(SambaNova)

by 뜨리스땅 2024. 6. 23.
728x90
반응형

1. 개요

 

2017년 설립된 미국 스타트업 삼바노바(SambaNova)는 GPU를 대신해 RDU (Reconfigurable Data Unit)라는 고성능 AI반도체를 선보이고 있다.

삼바노바의 창업자는 고성능 멀티코어 CPU의 대부 쿤레 올루코툰(Kunle Olukotun) 스탠퍼드대 교수와 데이터 및 인공지능 소프트웨어 전문가 크리스 레(Chris le) 스탠퍼드대 교수다. 2002년 선마이크로에 인수됐던 올루코툰 교수의 첫 스타트업 아파라 웹시스템즈(Afara Websystems)에서 일했던 로드리고 리앙이 다시 삼바노바에 합류해 CEO를 맡았다.

 

호드리구 리앙 삼바노바 CEO


시작은 소프트웨어 개발이었으나 회사가 구상한 소프트웨어를 운용할 수 있는 반도체가 없어 삼바노바는 결국 직접 AI 반도체를 만들기로 결심한다. 

이미 업계에서 알려진 인사들이 AI반도체 개발을 시작한다는 소식이 퍼지자 미국 벤처투자사 월든 인터내셔널 립부 탄(Lip-Bu Tan) 회장과 소프트뱅크 손정의 회장 등이 앞다퉈 투자에 나섰고 이에 힘입어 삼바노바는 순식간에 유니콘(기업가치 1조원) 기업으로 발돋움한다.

이후 '카디널(Cardinal) SN30 RDU', 'SN40L' 등 AI반도체를 잇따라 발표했으며, 반도체 뿐만 아니라 1조개 이상의 매개변수를 갖춘 대형언어모델(LLM) '삼바-1(Samba-1)'을 출시한다.

삼바-1은 'GPT-4'와 같은 단일 대형모델이 아닌 독립 모델 조합이기 때문에 사용자의 프롬프트에 맞춰 모델을 연결하는 방식을 제어할 수 있다. 사용자의 요청에 맞춰 개별 또는 소규모 모델 그룹을 조정할 수 있기 때문에 비용과 시간을 아낄 수 있다는 평가다.

최근에는 저전력 고효율 AI반도체를 탑재한 '삼바노바 스위트(SambaNova Suite)'를 공개하며 기술력을 과시했다. 삼바노바 스위트는 기업을 위해 칩에서부터 모델까지 제공하는 최초의 풀 스택 생성형 AI 플랫폼이다. 기업의 온프레미스나 클라우드를 통해 제공되는 삼바노바 스위트는 최첨단 오픈소스 모델을 제공하며, 고객의 데이터를 이용해 학습을 강화하면 정확도를 높일 수 있다. 덕분에 AI 반도체 스타트업 가운데 가장 높은 기업 가치(50억달러, 6조 7300억원)를 자랑한다.

 

삼바노바는 최근에는 자사 AI 반도체를 직접 판매하는 것이 아니라 AI 반도체팜을 구축한 후 이를 클라우드 형태로 기업에 임대하는 사업을 강화하고 있다. 세레브라스는 웨이퍼 크기를 극단적으로 키운 AI 반도체를 앞세워 제약·바이오 분야에 영향력을 확대하고 있다.

 

 

 

2. 첫 번째 H/W & S/W 통합 시스템

 

삼바노바 시스템즈(SambaNova Systems)’는 지난 2022년 9월 14일에 ‘데이터스케일 SN30(DataScale SN30)’이라는 새로운 하드웨어-소프트웨어 통합 AI 시스템을 출시했다고 HPC와이어가 보도했다. 

 

AI 스타트업 삼바노바 시스템즈는 ‘데이터스케일 SN30’이라는 새로운 하드웨어-소프트웨어 통합 AI 시스템을 출시했다


데이터스케일 SN30은 이전 SN10 시스템의 성능을 대폭 개선하고 대규모 AI 모델을 지원하도록 업그레이드한 차세대 시스템이다.

A100 텐서 GPU를 기반으로 구축된 엔비디아 DGX A100 시스템과 경쟁하는 삼바노바는 새로운 데이터스케일 SN30 시스템이 대규모 AI 모델을 지원하며 GPT 모델을 빠른 속도로 훈련할 수 있다고 주장했다. 데이터스케일 SN30은 DGX A100 시스템에 비해 특정 AI 워크로드에서 6배 속도 향상이 가능하고, 12.8배 더 많은 메모리 용량을 제공한다.

또 하드웨어와 소프트웨어를 통합해 더 빠른 컴퓨팅 능력을 제공하는 것이 SN30 디자인의 핵심이다. 데이터스케일 SN30 시스템은 소프트웨어 정의 접근 방식으로 데이터 유형에 따라 CPU에서 GPU로 전환할 수 있다. 이것이 SN30 아키텍처가 다른 AI 아키텍처와 차별화되는 부분이다. 사용자는 워크로드의 요구 사항을 충족하도록 프로세서를 재구성해 신경망에 고효율 성능을 제공할 수 있다.

 

데이터스케일 SN30은 DGX A100 시스템에 비해 특정 AI 워크로드에서 6배 속도 향상이 가능하고, 12.8배 더 많은 메모리 용량을 제공한다

 

삼바노바는 SN30 기반 재구성 가능한 데이터 흐름 장치를 위한 새로운 프로세서 ‘카디널(Cardinal) SN30 RDU’도 공개했다.

 

카디널 SN30 RDU는 TSMC의 7nm 공정에서 제조되고 860억개의 트랜지스터를 포함하며 FP16 정밀도에서 688테라플롭이 가능하다. 마샬 조이 삼바노바 제품 수석 부사장은 "칩을 별도로 판매하지 않지만 고객에게 사전 훈련된 딥 러닝 모델을 제공하는 데이터 시스템 및 데이터 플로우 서비스(Dataflow-as-a-Service)의 핵심 구성 요소"라고 설명했다.

카디널 SN30 RDU는 큰 매개변수를 필요로 하는 GPT와 같은 대규모 모델, 최고 해상도를 요구하는 컴퓨터 비전 모델, 임베딩 테이블이 필요한 추천 엔진을 실행하기 위해 엄청난 양의 메모리를 제공하는 시스템 아키텍처 등에 적용된다.

재구성 가능한 데이터 플로우 아키텍처는 삼바플로우(SambaFlow)라는 오픈 소스 소프트웨어 스택을 실행해 각 머신 러닝 모델이 시스템에서 최적으로 실행되도록 한다. 동적 랜덤 액세스 메모리와 인터페이스할 필요성을 최소화해 수행함으로써 AI의 주요 병목 현상, 즉 프로세서와 메모리 간의 상호 연결을 제거한다.

가트너의 분석가인 카이렉 디케이트는 "SN30을 통해 삼바노바가 프로세서 속도를 두 배로 늘리고 메모리 용량을 개선함으로써 시스템의 모델 성능을 개선했다"고 평가했다.

엔비디아, 인텔 및 AMD와 같은 다른 AI 하드웨어 공급업체와 마찬가지로 삼바노바는 은행, 제약 및 에너지 산업 및 과학 연구의 응용 프로그램을 위해 전문화된 인프라와 복잡한 모델의 생산 가속화가 필요한 기업에 적합한 모델을 제공한다.

삼바노바 측은 "미국 에너지부의 아르곤 국립 연구소가 유전자 생성을 위한 GPT 사용, 중성미자 물리학을 위한 3D 컨볼루션 네트워크, 단일 및 쌍 약물에 대한 종양 반응 예측을 포함한 애플리케이션에서 SN30 플랫폼을 테스트할 것으로 예상한다"고 덧붙였다. 

 

3. 삼바노바의 최신 반도체: SN40L

 

“삼바노바 스위트에 힘을 제공하고 있는 최신 AI칩 ‘SN40L’을 만나보시라.”

 

지난 2023년 9월 19일 삼바노바는 자사의 AI 모델용 칩인 SN40L이

 

“혁신적 디자인을 갖춘 업계 최초의 혁신적 제품이다···단일 시스템 노드에서 256k+ 시퀀스길이를 가진 5조 개(GPT-4의 약 3배)의 파라미터(매개변수) 모델을 제공한다. 이는 통합 스택에서만 가능하며···더 낮은 총 소유 비용(TCO)으로 더 높은 품질의 모델과 더 빠른 추론 및 훈련을 할 수 있다”

 

고 소개했다.

 

삼바노바가 개발한 SN40L GPU칩

 

또 “고객들은 GPT-4와 같은 1조 개의 매개변수 모델의 힘을 갖춘 LLM(거대언어모델)을 요구하고 있지만, 그들은 또한 자신의 데이터 상에서 정교하게 조정된 모델을 소유하는 것의 이점을 원하고 있기도 하다. 현재까지 가장 진보된 우리의 AI 칩(SN40L)을 풀스택 LLM 플랫폼에 통합함으로써, 모델 정확도를 희생시키지 않고 고객들에게 훈련과 추론을 위해 더 높은 성능을 가진 가장 큰 LLM을 실행할 수 있는 열쇠를 제공하고 있다”고 말했다.

 

삼바노바의 SN40L 칩 활용상 이점을 요약하자면..

 

▲오픈AI GPT-4의 3배에 달하는 매개변수를 가진 모델을 제공하는 점

▲단일 시스템 노드에서 25만6000개 이상의 입력데이터 시퀀스 길이가 가능하다는 점

▲기존 모델을 소유하는 것의 이점을 제공한다는 점(멀티모드에서 손쉬운 데이터 검색, 분석 및 생성 지원),

그리고 ▲LLM 추론 실행시 더큰 효율성으로 AI 모델 총소유비용(TCO)을 낮춘다는 점 등이다.

 

삼바노바(SambaNova)는 자사가 개발해 공급하는 SN40L 칩을 AI모델 구동 칩 경쟁의 선두주자이자 최근 시장에서 가장 강력한 칩인 엔비디아 GH200의 대안으로 소개하고 있다.

 

대만 TSMC의 5나노미터 공정을 사용해 제작된 SN40L의 각 장치는 최대 638테라플롭스(1테라플롭=초당 1조개 부동소수점연산)의 속도를 낼 수 있는 1040개의 코어의 1020억 개 트랜지스터를 특징으로 한다. 이는 또한 AI 워크로드와 관련된 거대한 데이터 흐름에 대처하기 위해 설계된 새로운 3단 메모리 시스템을 가지고 있다.

 

SN40L칩은 480GB의 CPU 램과 96GB의 GPU 램을 지원한다. (지난 8월 시그래프에서 발표된 엔비디아 GH200 업데이트 버전은 H100과 동일한 GPU에 141GB의 최첨단 메모리 및 72코어 암 기반 CPU를 결합했다.)

 

메모리는 점점 더 AI 칩의 주요 차별화 요소가 되고 있다. 이는 점점더 커지는 생성 AI 모델의 크기로 인해 데이터 이동시 원래 컴퓨팅 성능에 비해 성능장애를 보이는 생기는 경우가 많아지기 때문이다. 이는 AI칩 기업들에게 메모리 양과 속도를 모두 향상시키도록 압박하고 있다.

 

SN40L 메모리의 특징은 제 3 메모리 계층을 추가했다는 점이다. 520MB의 온칩 메모리와 1.5테라바이트의 외부 메모리, 64기가바이트의 HBM(고대역메모리)를 추가 탑재한다. 물론 삼바노바의 HBM 적용이 처음은 아니며 새로운 칩(SN40L)은 경쟁사보다 작은 메모리를 특징으로 한다.

 

엔비디아의 H100 GPU는 80GB 값을 특징으로 하는 반면, 최근 출시된 AMD의MI300X GPU는 192GB를 특징으로 한다. (엔비디아가 2024년 2분기 양산을 시작하겠다고 밝힌 차세대 AI 칩 GH200에는 전작인 'H100 대비 HBM 탑재량이 2배 가까이 늘어날 것으로 예상된다. 기존 H100 제품에는 80GB HBM3가 사용되지만 GH200에는 144GB HBM3E가 탑재된다.)

 

아쉽게도 삼바노바는 메모리의 대역폭 수치를 공개하지 않을 것이기 때문에 다른 칩과 어떻게 비교되는지 판단하기가 어렵다는 지적이 나온다.

 

SN40L AI칩을 개발한 삼바노바 팀

 

량 삼바노바 CEO는 자사가 개발한 기술은 느린 외장 메모리에 더 의존하지만, 세 개의 메모리 층 사이의 부하를 지능적으로 분할할 수 있는 소프트웨어 컴파일러를 선택했다고 밝히고 있다. 또한 이 회사는 자사 고유의 칩 간 상호 연결을 통해 컴파일러가 8개의 프로세서 구성을 하나의 시스템인 것처럼 처리할 수 있도록 했다고 설명했다.

 

패터 러튼 IDC 성능 집약적 컴퓨팅 연구 담당 부사장은 “삼바노바의 SN40L 칩은 독특하다.

 

이 칩은 하나의 칩에서 고대역메모리(HBM)와 D램을 모두 처리해 AI 알고리즘이 당면한 작업에 가장 적합한 메모리를 선택할 수 있도록 한다. 이는 그러지 않을 경우 달성할 수 있는 것보다 훨씬 더 많은 양의 메모리에 직접 접근할 수 있게 해준다.

 

또한 이 칩들은 삼바노바의 RDU(Reconfigurable Data Unit) 아키텍처를 사용함으로써 더 스마트한 컴퓨팅을 사용해 희소 모델을 효율적으로 실행할 수 있도록 설계됐다”고 설명했다.

 

삼바노바의 이론은 기존 칩 설계가 명령어 흐름을 완화하는 데 지나치게 집중돼 있지만 대부분의 머신러닝 애플리케이션의 경우 데이터의 효율적인 이동이 더 큰 병목 현상을 겪고 있다는 것이다.

 

이를 해결하기 위해 삼바노바는 자사 칩에 고속 스위칭 패브릭으로 연결된 타일 어레이의 메모리 및 컴퓨팅 장치를 두어 당면한 문제에 따라 장치가 연결되는 방식을 동적으로 재구성할 수 있도록 했다. 이는 기계 학습 모델을 분석하고 장치를 연결하는 최상의 방법을 찾아내 원활한 데이터 흐름과 최대 하드웨어 사용을 보장할 수 있는 삼바플로우 소프트웨어와 함께 작동한다.

 

 

삼바노바는 자사의 이 SW군과 AI칩의 결합은 ‘게임 체인저’가 될 것이라며 기대감을 감추지 않고 있다.

올로코툰 삼바노바 공동창업자는 “고객들은 GPT-4와 같은 조 단위의 매개변수 모델의 힘을 갖춘 LLM을 요구하고 있지만, 또한 데이터를 미세 조정된 모델을 소유하는 이점을 원하고 있다. 우리는 현재까지 가장 진보된 AI 칩인 새로운 SN40L을 풀스택 LLM 플랫폼에 통합함으로써 모델 정확도를 희생하지 않고 고객들에게 훈련 및 추론을 위한 더 높은 성능의 가장 큰 LLM을 실행할 수 있는 열쇠를 제공하고 있다”고 설명했다.

 

삼바노바는 자사의 칩이 오픈 AI의 GPT-4 LLM 크기의 거의 3배에 달하는 5조 개의 매개 변수를 가진 모델을 지원할 수 있다고 주장한다. 이는 모델이 처리할 수 있는 입력 길이의 척도인 시퀀스 길이가 25만6000개의 토큰에 해당한다는 것이다.

 

로드리고 량 삼바노바 CEO는 산업 표준 GPU를 사용해 동일한 작업을 수행하려면 수백 개의 칩이 필요하며, 이는 산업 표준 접근 방식의 총 소유 비용의 1/25에도 미치지 못한다고 말한다.

 

10억 달러 이상의 벤처 자금을 조달한 삼바노바는 기업에 직접 칩(만)을 판매하지는 않는다. 대신 가장 큰 AI 모델을 구동하도록 특별히 설계된 고유의 하드웨어(HW)와 소프트웨어(SW)를 특징으로 하는 맞춤형 기술 스택에 대한 액세스를 판매한다.

 

가트너의 분석가인 치라크 데케이트는 SN40L이 경쟁 HW에 비해 상당한 우위를 점할 가능성이 있는 한 분야로 멀티모달 AI를 꼽고 있다. 그는 생성 AI의 미래는 이미지, 비디오 및 텍스트와 같은 다양한 유형의 데이터를 처리할 수 있는 대형 모델이지만, 이로 인해 워크로드가 크게 변동한다고 말한다.

 

데케이트는 GPU에서 볼 수 있는 상당히 엄격한 아키텍처는 이러한 작업에 적합하지는 않지만, 삼바노바가 재설정할 수 있도록 초점을 맞춘 것이 빛을 발하는 부분이 바로 여기라고 말한다. 그는 “삼바노바는 "워크로드 요구 사항에 맞게 HW를 조정할 수 있다”고 말한다. 또 삼바노바가 만든 것과 같은 맞춤형 AI 칩은 성능과 유연성 사이에서 균형을 유지한다고 말한다. 비록 GPU 칩들은 그렇게 강력하지는 않을 수 있지만 즉시 거의 모든 신경망을 실행할 수 있으며 강력한 SW 생태계에 의해 지원된다.

 

데케이트는 삼바노바가 고객들이 활용할 수 있는 미리 구워진 모델들의 카탈로그를 구축하고 있지만, 시장을 지배하는 엔비디아가 AI 개발의 모든 측면에서 가지고 있는 우위는 극복해야 할 주요한 과제라고 언급한다. 그는 “(삼바노바 칩의)아키텍처는 사실 기존 GPU 아키텍처보다 우수하다. 그러나 이러한 기술을 고객의 손에 넣고 대규모로 소비자들이 사용할 수 있도록 하지 않는 한 어려움을 겪을 가능성이 높다고 생각한다”고 지적했다.

 

삼바노바는 대규모 기업들이 거대한 기데이터 저장소에 앉아 있지만 대부분의 데이터가 무엇을 말하는지 모른다는 데에 영업의 초점을 맞추고 있다. 삼바노바는 기업들이 칩이나 AI 인재를 위해 싸울 필요없도록 이 데이터를 이용한 AI 모델 구축에 필요한 모든 HW와 SW를 제공할 수 있다고 말한다. 량 CEO는 “당신은 몇 달이나 몇 분기가 아니라 며칠 안에 운영할 수 있다”며 “모든 회사는 이제 자신만의 GPT 모델을 가질 수 있다”고 말했다.

 

반면 AI모델들이 SN40L과 같은 칩에서는 작동하기 위해서는 특별히 조정돼야 한다.

 

데케이트와 달리 컨설팅 회사 세미 어낼리시스의 딜런 파텔 수석분석가는 “엔비디아또한 DGX 클라우드를 통해 풀스택 AI서비스(AI-as-a-Service) 시장에 진출하고 있기에 이는 삼바노바에게 더욱 어려운 일이 될 것”이라고 말했다.

 

그는 “칩은 엄청난 진전이다”라면서도 “칩이 환경을 바꿀 것이라고 생각하지 않는다”고 덧붙였다. 즉, 엔비디아가 지금까지 구축해온 AI칩과 SW생태계를 넘어서기가 쉽지 않을 것임을 시사한 것이다.

 

 

 

4. 삼바노바의 Software Suite

 

삼바노바 시스템즈는 기업 맞춤형 생성 AI 모델 구축 및 서비스 플랫폼인 '삼바노바 스위트(SambaNova Suite)'를 공개했다고 지난 2023년 3월 1일(현지시간) 테크크런치가 보도했다.

이에 따르면 삼바노바 스위트의 특징은 기업이나 정부가 실제 사용하려는 AI 소프트웨어 스택에 맞춘 저전력 및 고효율 칩이라는 점이다. 기업이 특정 요구 사항을 충족하도록 오픈 소스 및 특정 생성 AI 모델을 모두 지원한다.

 

로드리고 리앙 CEO(가운데) 등 삼바노바 경영진


로드리고 리앙 삼바노바 CEO는 "파이토치나 텐서플로우, GPT와 같은 복잡한 모델은 물론 기업이 실제로 사용하고 싶어하는 AI 모델을 모두 지원하는 맞춤형 제품을 제공한다"며 "이런 맞춤형 칩은 지속적인 머신러닝과 추론 기능을 가능케 해, 생성 AI의 데이터를 최신 상태로 유지할 수 있다"고 설명했다.

플랫폼에는 칩뿐 아니라 소프트웨어가 포함, ▲회사의 특정 데이터에 대한 사용자 지정 ▲책임 있고 설명 가능한 AI를 제공하는 기능 ▲조직의 맞춤형 교육 등 종합적인 문제 해결에 도움이 된다고 설명했다.

리앙 CEO는 "삼바노바 스위트는 AI 모델이 특정 결론에 도달한 방법을 정확히 알려줄 수 있도록 구축됐다"며 "모델을 훈련하고 미세 조정하는 방법과 관련된 모든 프로세스를 저장하기 때문에 편향을 확인하거나 어떤 일이 특정 방식으로 발생한 이유를 확인하고 싶을 때 실제로 흐름을 통해 작업하고 결과를 확인할 수 있다”고 강조했다.

 

 

 

최근 개발된 SN40L 칩은 삼바노바 스위트(SW군) 상에서 가동하게 된다.

 

스위트(SambaNova Suite)는 칩에서 모델에 이르는 최초의 풀 스택 생성형 AI 플랫폼으로 기업 및 정부 조직에 최적화돼 있다.

 

이는 기업내에서 또는 클라우드에서 제공되는 완전 통합 플랫폼으로서 최첨단 오픈 소스 모델과 결합하며, 고객 데이터를 사용해 쉽고 안전하게 미세 조정해 정확도를 높일 수 있다. 고객 데이터에 적응하면 고객은 모델 소유권을 영구적으로 유지하므로 생성형 AI를 가장 가치 있는 자산 중 하나로 바꿀 수 있다.

 

삼바노바 팀은 6년간의 엔지니어링 및 고객 피드백을 바탕으로 AI 구현시 대한 고객들의 과제(훈련 및 추론 비용, 시퀀스 길이 제한, LLM의 속도 또는 지연 시간 등)를 깊이 생각하고 LLM 플랫폼을 완전히 모듈화하고 확장 가능하도록 설계했다고 밝혔다.

 

이를 통해 고객들은 추론 성능을 저하시키지 않으면서도 새로운 영역에 대한 양식과 전문 지식을 점진적으로 추가하고 모델의 패러미터(매개 변수) 수를 최대 5조개가 될 때까지 늘려 갈 수 있다.

 

삼바노바 스위트내에 있는 새로운 모델과 능력은 다음과 같다.

 

▲라마2 변형 모델들(7B, 70B)=최첨단 오픈 소스 언어 모델들은 고객들이 이 모델들에 대한 소유권을 유지하면서 사용 가능한 최고의 LLM 모델을 적용, 확장 및 실행할 수 있게 해준다.

 

▲블룸 176B=오픈 소스 커뮤니티에서 가장 정확한 다국어 기반 모델로, 고객들이 다양한 언어로 더 많은 문제를 해결할 수 있도록 하는 동시에 새로운 낮은 리소스 언어들을 지원하도록 모델을 확장할 수 있다.

 

▲고객들이 벡터 임베딩에 문서를 임베딩할 수 있어 질의응답 과정에서 검색할 수 있고 환각이 발생하지 않는 벡터 기반 검색 증강 생성을 위한 새로운 임베딩 모델이다. 이어 LLM이 그 결과를 분석, 추출하거나 정보를 요약한다.

 

▲음성 데이터의 전사 및 분석을 위한 세계 최고 수준의 자동화된 음성 인식 모델이다.

 

▲멀티 모달 및 롱 시퀀스 길이 기능이 추가됐다.

 

▲3단 데이터 플로우 메모리를 갖는 추론에 최적화된 시스템을 제공해 고대역폭과 고용량 성능을 저하시키지 않는다.

 

 

 

5. LLM에도 도전: MoE 방식 LLM

 

삼바노바가 1초 만에 330개의 토큰을 처리하는 획기적인 인공지능(AI) 모델을 출시했다고 주장했다. 데이터브릭스가 '오픈 소스' 최강 성능이라는 ‘DBRX’를 출시한 지 하루 만에, 이를 뛰어넘었다는 설명이다.

DBRX는 단일 모델을 사용하는 대신 '전문가 혼합(MoE)' 방식으로 여러 모델 중 일부만을 사용해 효율을 높이는 방식인데, 삼바노바 역시 소형모델 여러개 중 쿼리에 맞춰 필요한 모델만 '라우팅'하는 방식을 사용했다는 것이 특징이다.

벤처비트는 지난 2024년 2월 28일(현지시간) AI 칩 제조 전문 삼바노바가 1월에 공개한 LLM '삼바-1'을 기반으로, '삼바-CoE(Samba-CoE) v0.2'이라는 LLM을 구축했다고 보도했다. 이 모델은 자체 AI 칩인 RDU 8개와 함께 제공되는 '삼바노바 스위트' 플랫폼에서 작동한다.

 


삼바노바는 X(트위터)를 통해 "삼바-CoE v0.2는 초당 330토큰 처리의 엄청난 속도로 데이터브릭스의 DBRX, 미스트랄AI 의 '믹스트랄 8x7B', xAI의 'Grok-1'보다 뛰어난 성능을 발휘한다"라며 "이는 8소켓에서만 작동, 정밀도를 희생하지 않고 엄청난 속도를 달성했다"라고 밝혔다.

 

삼바-1은 56개의 오픈 소스 모델로 구성된 1조 매개변수의 LLM이다. 단일 대형모델이 아닌, 독립 모델 조합이기 때문에 사용자의 프롬프트에 맞춰 필요한 모델만 연결하는 MoE 아키텍처다. 이 때문에 기존 대형모델을 통째로 움직이는 것에 비해 비용과 시간을 아낄 수 있다.

특히 이번에는 필요 모델을 연결할 때 576개의 소켓을 사용하던 기존 방식에서 진화, 8개의 소켓만을 활용하고도 정확도를 유지해 LLM 작동 시간을 단축했다는 설명이다. 삼바-CoE v.02는 7B 크기의 오픈 소스 모델 5개로 이뤄져 있다.

이런 까닭에 v0.2는 벤치마크에서 은하계에 대한 질문에 대해 1초 만에 330.42개의 토큰을 처리, "눈이 부시도록 빠르게" 응답을 생성했다고 밝혔다. 또 양자 컴퓨팅에 관한 질문에서는 1초에 332.56개의 토큰을 전달했다고 덧붙였다.

 

이는 구글 '젬마-7B', 미스트랄의 믹스트랄 8x7B, 메타의 '라마 2 70B', 알리바바의 '큐원-72B', 데이터브릭스의 DBRX 132B, xAI의 그록-1 314B 등보다 뛰어난 성능을 보였다고 밝혔다. 또 알파카 리더보드에서는 GPT-4나 클로드 3 등 대형모델에 이어 11위를 차지했다.

 

 

원래 삼바-1에는 '라마 2' '미스트랄' '팰컨' '디플롯' '클립' '라바' 등 유명 오픈 소스 모델이 대부분 포함됐다. 삼바노바는 추후 공개할 v0.3과 v0.4 모델에서는 7B 모델 4개와 34B 모델 한개를 조합, 성능을 더 끌어올릴 예정이다.

즉 높은 비트 전송률을 유지하면서 더 적은 수의 소켓을 사용, 컴퓨팅 효율과 모델 성능 두마리 토끼를 잡겠다는 의도다.

삼바노바는 지난 2017년 맞춤형 AI 칩 제조업체로 시작한 업체다. 처음에는 GPU의 대안으로 '재구성 가능한 데이터 흐름 장치', 즉 RDU 칩을 출시하며 기업 가치 50억달러(약 6조7000억원)를 돌파했다.

이어 지난해 기업용 AI 모델 교육 및 개발, 배포 등이 가능한 '삼바노바 스위트'라는 플랫폼을 출시하며 빠르게 확장했다. 삼바-1은 그 결과로 내놓은 첫 LLM이다.

 

삼바-1 모델은 기업이 모델을 사용자 정의하고 배포할 수 있도록 지원하는 풀스택 AI 소프트웨어 도구인 ‘삼바노바 스위트(SambaNova Suite)’의 일부로, 삼바노바가 개발한 AI 칩 ‘SN40L’에서 구동된다. 

호드리구 리앙 삼바노바 CEO는 “우리가 지금 하고 있는 일은 사전 구성, 사전 훈련 및 사전 최적화된 완성 모델을 제공하는 것”이라며 “이를 통해 기존처럼모델 하나가 모든 작업을 수행하지 않아도, 추론을 위한 고성능 및 대규모 배포를 효율적으로 수행할 수 있다”라고 말했다.

이어 “삼바-1은 하드웨어를 포함한 풀스택 프레임워크 형태로, 온프레미스는 물론 프라이빗 클라우드에서 사용할 수 있다"라고 덧붙였다.

삼바-1을 구성하는 56개의 모델에는 '라마 2' '미스트랄' '팰컨' '디플롯' '클립' '라바' 등 유명 오픈 소스 모델이 대부분 포함됐다.

이들 모델을 개별 학습한 다음 삼바-1 내부에서 서로 상호 작용할 수 있도록 별도 과정을 거쳤다. 이를 통해 특정 쿼리에 대해 답변을 제공하는 한 모델의 스레드가 다음 모델의 입력이 되는 방식으로, 사용자에 가장 적합한 단일 1조 매개변수 모델로 최적화한다는 설명이다.

 

삼바-1 전문가 구성 (사진=삼바노바)

 

LLM 여럿을 연결한다는 아이디어는 새로운 것이 아니다. 널리 사용되는 오픈 소스 '랭체인(LangChain)' 기술은 사용자는 주어진 프롬프트에 어떤 모델 체인을 사용할지 모델 체인을 미리 결정할 수 있는 기술이다. 하지만 삼바-1을 사용하면 개별 전문가 모델이 프롬프트와 응답을 기반으로 동적으로 연결될 수 있어 유연성이 향상된다는 것이 차별점이라고 설명했다.

또 GPT-4나 미스트랄과 같은 LLM에 적용 중인 ‘전문가 혼합(MoE, Mixture of Experts)’과도 다르다고 밝혔다. MoE는 단일 모델이 여러 데이터셋을 훈련, 잠재적으로 데이터셋의 보안 및 개인정보 보호를 침해할 수 있다. 

반면 삼바-1의 ‘전문가 구성’은 각 전문가 모델을 자체 보안 데이터셋에 대해 개별적으로 훈련하는 방식이다. 훈련 데이터의 보안 제한 사항이 전문가 모델에만 전파되기 때문에 안전하고 비공개적으로 모델을 훈련, 배포 및 추론할 수 있다는 설명이다.

이로 인해 삼바-1은 1조개의 매개변수 모델을 제공하지만, 기업에 따라 매개변수가 크게 줄어들 수도 있다. 단일 대형모델이 아닌 여러 특수 모델을 함께 사용함으로써, 고성능 작업은 물론 간단한 작업도 동시에 효율적으로 처리할 수 있다는 설명이다.

리앙 CEO는 “모든 프롬프트를 처리하는 데 전체 1조개의 매개변수가 동시에 활성화될 필요가 없다”라며 "전체를 움직이는 단일 대형 모델 대신, 필요한 전문가 모델만 사용할 수 있기 때문에 효율성, 설치 공간, 전력 및 대역폭 등의 효율을 극대화할 수 있다"라고 말했다.

반면 이 모델을 사용하려면 삼바노바가 제작한 AI 칩을 반드시 활용해야 한다는 제약이 따른다. 이 때문에 테크크런치는 "결국 AI 번들링에 불과하다"라는 평을 남겼다.

 


출처 : AI타임스, 테크월드뉴스, Tech42

 

뜨리스땅

 

 

 

https://tristanchoi.tistory.com/666

 

엔비디아 대항마? - 세레브라스(Cerebras)

1. 개요 세레브라스(Cerebras)는 오픈AI 창업자 샘 알트먼을 포함한 세계적 투자자들이 7억4000만 달러(약 9900억원)를 투자한 AI 반도체 기업이다. 현재 세레브라스의 기업 가치는 41억 달러(약 5조 53

tristanchoi.tistory.com

 

728x90
반응형

댓글