1. 개요
세레브라스(Cerebras)는 오픈AI 창업자 샘 알트먼을 포함한 세계적 투자자들이 7억4000만 달러(약 9900억원)를 투자한 AI 반도체 기업이다. 현재 세레브라스의 기업 가치는 41억 달러(약 5조 5300억원) 에 달한다.
세레브라스는 현재 전 세계 스타트업 업계에서 가장 주목받는 AI 반도체 업체이다. 세레브라스 본사는 회사라기 보다는 연구실에 가까운 모습이었다. 라우드룸(소음실)은 냉각 팬이 돌아가는 소리가 요란했다.
양쪽 벽에는 거대 인공지능(AI)칩이 탑재된 서버들이 가득 진열돼 있었고, 우측에는 20갤런 규모의 물탱크 6개가 일렬로 장착된 냉각수 펌핑 시스템이 보였다. 소음실 밖 실험실에선 세레브라스 직원들이 현미경으로 냉각 시스템에 들어가는 부품을 살피며 토론하고 있었다.
세레브라스 관계자는 “우리가 만든 웨이퍼 크기의 거대 AI 반도체는 일반 그래픽 처리 장치(GPU)에 비해 연산력이 획기적으로 좋지만, 동시에 더 빨리 뜨거워지는 단점이 있다”며 “고성능을 유지하기 위해 효율적인 냉각 시스템을 직접 실험하고 있다”고 했다.
주력 제품은 세계 최대 크기의 AI 반도체 'WSE-2'이다. A4 사이즈와 비슷한 이 반도체는 원판인 웨이퍼 한 장 전체를 하나의 반도체로 만들어 GPU에 비해 연산력을 획기적으로 높였다.
사람 얼굴만 한 크기의 반도체 하나가 수퍼컴퓨터급 인공지능 계산을 수행한다. 무려 85만개의 계산기 코어가 내장되어 있으며, 칩 내부에는 2조6000억개의 트랜지스터가 연결되어 있고 40기가바이트(GB)의 내장 메모리도 설치되어 있다.
다만, GPU에 비해 더 빨리 뜨거워지는 단점이 있어 현재 고성능을 유지하기 위해 효율적인 냉각 시스템을 개발 중이다.
최근에는 '챗GPT'와 유사한 챗봇 7종도 출시했다. 매개변수(파라미터)를 많이 가진 모델일수록 더 복잡한 콘텐츠를 생성할 수 있는데, 7개 모델의 매개변수는 작은 모델이 1억1100만개, 큰 모델이 130억개 규모다. 오픈AI의 챗GPT는 1750억개의 매개변수를 가지고 있는 것으로 알려졌다.
펠드먼 CEO는 긴 글을 요약하는 것처럼 매우 복잡한 작업에는 대형 모델이 필요하겠지만, 소형 모델은 휴대전화나 스마트 스피커 등에, 그보다 더 큰 모델은 PC나 서버 등에 적용할 수 있다고 설명했다.
2. UAE와의 관계. 그리고 콘도르 갤럭시
세레브라스는 최근 엔비디아의 대항마로 인정받기 시작하고 있다. 아랍에미리트(UAE)에 기반을 둔 'G42'에 AI 슈퍼컴퓨터 3대 중 첫 번째를 공급하는 계약을 체결한 것이다. 세레브라스의 AI 컴퓨터는 UAE가 구축하는 수퍼컴퓨터 네트워크 '콘도르 갤럭시'에 탑재돼, 아랍어 기반 AI 대형언어모델(LLM) 구축에 활용될 예정이다.
AI 슈퍼컴퓨터 한 대의 가격은 1억달러(약 1300억원)에 이른다. 세레브라스는 UAE와 2024년 말까지 최대 9대의 슈퍼컴퓨터를 추가로 구축하는 계약을 논의하고 있다.
특별한 것은 이 거래는 챗GPT, 미드저니 등 생성 AI(Generative AI) 및 대형언어모델(LLM)로 다양한 인공지능 서비스가 급증하는 가운데 칩, GPU 등 관련 기반 제품 공급이 부족하고 AI 컴퓨팅 시장의 선두주자인 엔비디아에 대한 대항마를 찾고 있는 가운데 이루어진 것이다. 세레브라스(창립자 겸 CEO 앤드류 펠드만/Andrew Feldman) 역시 엔비디아 아성에 도전하려는 여러 스타트업 중 하나다.
G42는 UAE 아부다비에 본사를 둔 데이터 센터 및 클라우드 서비스 사업을 포함하고 운영 회사를 보유한 기술 대기업으로 세레브라스와 AI 모델 학습 시간을 크게 단축할 수 있는 새로운 접근 방식의 AI 컴퓨팅을 제공하는 9대의 상호 연결된 AI 슈퍼컴퓨터로 구성된 글로벌 네트워크 '콘도르 갤럭시(Condor Galaxy)'는 36엑사플롭스 연산 능력을 갖춘 이 전례 없는 AI 슈퍼컴퓨팅 파워로 수많은 상용 애플리케이션과 AI 혁신을 주도할 것이라고 밝혔다.
이번 4엑사플롭, 5,400만 코어의 클라우드 기반 AI 슈퍼컴퓨터인 '콘도르 갤럭시 1(CG-1)'는 이 AI 슈퍼컴퓨팅 네트워크의 첫 번째 배치이며, 이미 워크로드에 사용 가능하다. G42는 2023년 연말까지 CG-2와 CG-3 두 대의 슈퍼컴퓨터를 미국에 추가로 배치할 계획이었다.
G42의 자회사인 G42 클라우드의 탈랄 알카이시(Talal Alkaissi) CEO는"세계에서 가장 빠른 AI 학습 슈퍼컴퓨터를 신속하게 제공하고 전 세계에 걸쳐 이러한 슈퍼컴퓨터를 상호 연결할 수 있는 기반을 마련하기 위해 세레브라스와 협력하는 것은 매우 흥미진진한 일이었습니다"라며, "이번 파트너십을 통해 세레브라스의 뛰어난 컴퓨팅 역량과 G42의 다양한 산업 분야 AI 전문성이 결합됩니다. 콘도르 갤럭시는 의료, 에너지, 기후 행동 등 사회 전반의 가장 시급한 과제를 해결하는 데 사용될 것입니다"라고 말했다.
세레브라스 CEO인 앤드류 펠드먼은 "FP 16에서 4 엑사플롭스(exaFLOPs)의 AI 컴퓨팅을 제공하는 CG-1은 분산 컴퓨팅의 어려움을 없애면서 AI 학습 타임라인을 획기적으로 단축합니다."라며, "많은 클라우드 회사들이 수십억 달러의 구축비용이 드는 대규모 GPU 클러스터를 발표했지만, 이는 사용하기 매우 어렵습니다"라고 말했다.
또한 "수천 개의 작은 GPU에 단일 모델을 배포하려면 전문 지식을 갖춘 수십 명의 인력이 수개월에 걸쳐 작업해야 합니다. CG-1은 이러한 문제를 해결합니다"라며, "생성 AI 모델을 설정하는 데 몇 달이 아닌 몇 분이면 충분하며, 한 사람이 수행할 수 있습니다"라고 강조했다.
이어 "CG-1은 미국 전역에 배치될 3대의 4엑사플롭스 AI 슈퍼컴퓨터 중 첫 번째 슈퍼컴퓨터입니다"라며, "우리는 내년에 G42와 함께 이 배치를 확장하여 36엑사플롭스의 효율적인 특수 목적 AI 컴퓨팅을 구축할 계획입니다"라고 덧붙였다.
한편, 콘도르 갤럭시1(CG1)은 대형언어모델(LLM) 및 생성 AI에 최적화된 솔루션으로 최대 6천억 개의 파라미터 모델에 대한 표준 지원 및 최대 100조 개의 파라미터 모델을 지원하는 확장 가능한 구성과 함께 4엑사플롭스(exaFLOPs)의 16비트 AI 컴퓨팅 파워를 제공한다. 5,400만 개의 AI 최적화 컴퓨팅 코어, 388테라비트의 패브릭 대역폭, 72,704개의 AMD EPYC 프로세서 코어로 알려진 GPU 클러스터와 달리 간단한 데이터 병렬화를 사용해 1에서 64 CS-2 시스템까지 거의 선형에 가까운 성능 확장을 제공한다.
3. Wafer Scale 반도체에 대해
웨이퍼 스케일 엔진(Wafer Scale Engine, WSE)은 초대형 AI 가속기로, 웨이퍼 규모 집적회로(Wafer scale integration)의 일종이다. 아이패드 크기의 직사각형의 반도체 칩 안에 AI 가속기 연산유닛에 필요한 모든 구성요소를 밀어넣는다. TSMC의 16nm 공정으로 생산되는 직경 300mm 웨이퍼로 얻어낼 수 있는 칩 중에서는 제일 거대한 것이며, 아이패드와 맞먹는 크기를 자랑한다.
구체적인 스펙은 다음과 같다.
-
46,225mm^2 실리콘
-
1조2천억 트랜지스터
-
40만 AI 특화 코어
-
18기가바이트 온칩 메모리
-
9PByte/s 메모리 대역폭
-
100Pbit/s fabric 대역폭
-
TSMC 16nm 생산과정
굳이 이렇게 거대한 칩을 만드는 이유는, 정보 전송 지연의 약 50%는 칩과 PCB 기판 사이에서 발생하는데, 모든 것을 칩 하나에서 다루면 이러한 지연을 최소화할 수 있고 전력 소모도 크게 감소하기 때문이다.
다만 크기가 워낙 커서 열팽창으로 인한 크기 변화도 크기 때문에 문제가 생길 수 있는데, 기판과 실리콘 사이에 연결층을 두어서 이에 대비하였다.
4. 신제품
지난 3월 세레브라스는 세계에서 가장 빠른 AI 프로세서를 출시했다. 엔비디아의 'H100' GPU 62개에 해당하는 성능을 하나의 프로세서에서 제공한다고 주장했다.
톰스하드웨어에 의하면 지는 3월 13일(현지시간) 세레브라스가 12인치 웨이퍼 크기의 AI 프로세서 ‘WSE-3(Wafer Scale Engine 3)’를 출시했다고 보도했다.
이에 따르면 WSE-3는 TSMC 5나노 공정으로 제작된 웨이퍼 한개 크기의 거대한 프로세서로 4조개의 트랜지스터가 포함됐다.
무려 90만개의 AI 코어와 44GB의 온 칩 SRAM을 하나로 통합, 이론상 엔비디아 H100 GPU 62개에 해당하는 최대 125 FP16 페타플롭스(PF) 성능을 제공한다. 1PF은 초당 1000조번의 계산에 해당한다.
2세대 WSE-2보다 성능은 2배 향상했지만 전력 소모는 동일해 전력 효율성도 우수하다는 주장이다.
WSE-3는 최대 24조개의 매개변수로 AI 모델을 훈련하는 데 사용할 수 있는 세레브라스의 'CS-3' 슈퍼컴퓨터를 구동한다.
CS-3 슈퍼컴퓨터는 1.5TB, 12TB 또는 1.2PB의 외장 메모리를 지원할 수 있다. 따라서 파티션이나 리팩토링 없이 단일 논리 공간에 대규모 모델을 저장할 수 있어 훈련 프로세스를 간소화하고 개발자의 효율성을 높일 수 있다는 설명이다.
확장성 측면에서 CS-3는 최대 2048개의 시스템으로 클러스터를 구성할 수 있다. 4대의 시스템으로 클러스터를 구성할 경우, 700억 매개변수의 '라마 2'를 단 하루 만에 훈련할 수 있다.
CS-3 슈퍼컴퓨터는 엔비디아 DGX-H100에 비해 성능은 8배 빠르고 1900배 더 많은 메모리를 제공하며 600배 더 큰 모델을 처리할 수 있다. 또 대형언어모델(LLM)의 학습을 간소화, GPU에 비해 최대 97% 적은 코드가 필요하다. 예를 들어 'GPT-3' 크기의 모델은 565줄의 코드만 필요하다는 설명이다.
앤드류 펠드만 세레브라스 CEO는 "8년 전 우리가 이 여정을 시작했을 때 모두가 웨이퍼 규모 프로세서는 헛된 꿈이라고 말했다"라며 "WSE-3은 전문가 혼합(MoE) 모델부터 24조 매개변수 모델까지 최첨단 AI 작업을 위해 특별히 제작된 세계에서 가장 빠른 AI 칩"이라고 말했다.
한편 세레브라스는 CS-3 시스템 64개를 갖춘 AI 슈퍼컴퓨터인 '콘도르 갤럭시 3(CG-3)'를 구축하면서 아랍에미리트(UAE)의 국영 기업 G42와의 전략적 파트너십을 확대할 예정이라고 밝혔다.
두 회사는 이미 캘리포니아에 위치한 세계 최대 규모의 AI 슈퍼컴퓨터 '콘도르 갤럭시 1(CG-1)'과 '콘도르 갤럭시 2(CG-2)'를 함께 개발, 총 8개의 엑사플롭스 연산 성능을 갖췄다.
이 파트너십은 전 세계적으로 수십 엑사플롭(EF)의 AI 컴퓨팅을 제공하는 것을 목표로 한다. 1EF는 초당 100경번의 계산에 해당한다.
키릴 에브티모프 G42 CTO는 "세레브라스와의 전략적 파트너십은 G42의 혁신을 촉진하는 데 중요한 역할을 해왔다"라며 "전 세계적으로 AI 혁명을 가속화하는 데 기여할 것"이라고 말했다.
또 "8EF 성능을 자랑하는 차기 AI 슈퍼컴퓨터 콘도르 갤럭시 3는 현재 건설 중이며, 곧 우리 시스템의 총 AI 컴퓨팅 생산량을 16EF으로 끌어올릴 것"이라고 강조했다.
출처 : AI타임스, 테크월드뉴스, 나무위키, 조선일보
뜨리스땅
https://tristanchoi.tistory.com/659
'반도체, 소.부.장.' 카테고리의 다른 글
엔비디아 대항마? - 그록(Groq) (0) | 2024.06.25 |
---|---|
엔비디아 대항마? - 삼바노바(SambaNova) (0) | 2024.06.23 |
AI 시대에서 FPGA 반도체의 역할 (0) | 2024.06.16 |
AI 반도체에 대해 알아야할 주요 키워드 (1) | 2024.06.15 |
국내 AI 반도체 선도업체 '리벨리온 - 사피온'의 합병 발표 (1) | 2024.06.13 |
댓글