본문 바로가기
반도체, 소.부.장.

엔비디아 대항마? - 그록(Groq)

by 뜨리스땅 2024. 6. 25.
728x90
반응형

구글 출신 조나단 로스(Jonathan Ross) CEO는 한국인에게 익숙한 알파고(2016년 이세돌 9단과 대국한 AI)에 쓰인 머신러닝용 칩 TPU(텐서 프로세싱 유닛)의 초기 설계자다. 게임 개발자가 되려다가 게임 밖 세상을 바꾸는 쪽이 더 재미있게 느껴져 소프트웨어(SW) 엔지니어의 길로 들어섰다고 했다. 뉴욕대 재학 중 얀 르쿤 교수의 머신러닝 강의를 들었고, 이후 구글에서 TPU 개발에 참여했다. 

 

현재 사용되는 CPU 및 GPU보다 인공지능 서비스 구현에 더 적합한 반도체를 개발해 상용화하겠다는 목표를 두고 지난 2016년 그록(Groq)을 설립했다. 기계 학습을 위해 개발된 구글의 텐서 처리 장치(TPU) 설계자 10명 중 8명이 그록에 합류하며 일찌감치 시장의 기대를 받았다.

 



그록은 AI 학습과 추론 중 추론에 특화된 칩과 가속기를 개발하고 있다. 그록의 초고속 언어처리장치(LPU)는 처음부터 거대 언어모델을 염두에 두고 개발된 만큼 연산 효율성과 전력소모 등 측면에서 우월하다는 평가를 받는다. 이를 통해 챗GPT와 같은 인공지능 서비스를 실행할 때 기존에 사용되던 반도체보다 훨씬 빠른 속도로 작업을 수행할 수 있다.

 

Groq의 주요 기술적 특징은 다음과 같다.

 

  1. 텐서스트리밍 프로세서(TSP) 아키텍처: Groq는 단일 칩에서 초당 Peta(천 조)회 연산을 수행할 수 있는 TSP 아키텍처를 개발했습니다.
  2. 고성능: 이 아키텍처는 초당 최대 250조의 부동 소수점 연산(FLOPS)을 처리할 수 있어, 세계 최초로 이 수준의 성능을 달성했습니다.
  3. 소프트웨어 중심 설계: Groq의 접근 방식은 소프트웨어를 우선으로 고려하여 설계되었습니다. 이는 개발자들이 더 적은 코드로 AI 모델을 효율적으로 실행할 수 있게 합니다.
  4. 병렬 처리 및 고속 데이터 전송: Groq의 프로세서는 대규모 데이터 세트를 사용하는 딥러닝 모델의 학습과 추론을 가속화하는 데 특화되어 있습니다.
  5. 간소화된 아키텍처: 기존의 GPU나 CPU와 달리, Groq의 아키텍처는 동기화 오버헤드 없이 컴퓨팅 유연성과 대규모 병렬성을 달성합니다.
  6. 빠른 구현: Groq의 기술은 6주 안에 생산 단계로 돌입이 가능하며, 기존 및 새로운 기계 학습 모델을 모두 지원합니다.
  7. 다양한 응용 분야: 자율주행차, 데이터 센터, 클라우드 컴퓨팅, 컴퓨터 비전, 기계 학습 등 다양한 AI 관련 워크로드에 적합합니다

 

 

올초 발표된 벤치마크 테스트에서 그록은 다른 8개 클라우드 기반 추론 제공업체의 성능을 앞질렀다.

메타의 700억 매개변수 '라마 2'는 마이크로소프트 애저 클라우드상에서 초당 19개 토큰을 생성했지만, 그록을 탑재했을 때 초당 241개 토큰을 만들었다. 즉, LLM이 그록을 탑재할 경우 13배 이상 빠른 추론 속도를 갖출 수 있는 셈이다.

또, 그록의 LPU는 100개 토큰을 생성하는 데 0.8초가 걸렸지만, 마이크로소프트의 애저 클라우드는 10.1초 소요됐다.

 

Groq가 공개한 LPU의 성능은 5120개의 벡터 ALU(산술 논리 장치)를 포함하고 있다. 또한 320*320 크기의 행렬 곱셈을 지원해 INT8 연산에서 750TOPS(1초당 1조번의 AI 연산), FP16 연산에서 188TFLOPS을 달성하며, TSP 아키텍처를 기반으로 하는 단일 코어 장치이다. 이 장치는 초당 80TB의 대역폭을 갖춘 230MB의 로컬 SRAM을 제공한다.

위 내용에 대해 쉽게 풀어서 설명하면, 우선 LPU는 크게 두 부분으로 나눌 수 있다.

  1. 벡터 ALU(산술 논리 장치): 간단한 수학 연산(사칙연산)을 처리한다. 이런 연산을 동시에 수천개 처리할 수 있는 5120개의 ALU가 있다는 것이다.
  2. TSP(Tensor-Sreaming Processor): 복잡한 AI연산, 특히 대량의 데이터를 처리하는 행렬 곱셈에 특화된 것을 말한다. 이 칩은 INT8(정수 연산)에서 초당 750조번, FP16(부동 소수점 연산)에서 초당 188조 번의 연산을 수행할 수 있다. 즉, Groq의 LPU가 AI연산을 엄청나게 빠른 속도로 처리할 수 있다는 것이다.

 


최근에는 삼성전자와 파트너십을 맺으며 주목을 받고 있다. 삼성전자가 미국 텍사스주 테일러에 짓고 있는 파운드리 공장의 첫 고객사가 된 것이다. 이곳에서 그록은 4나노 공정(SF4X)에서 차세대 반도체를 제조할 계획이다.

그록의 최고경영자(CEO)를 맡고 있는 조나단 로스 "삼성전자와의 협업을 통해 최첨단 파운드리 기술을 칩 제조에 활용할 수 있게 됐다"며 "도약의 계기가 될 것"이라고 말했다.

마코 치사리 삼성전자 반도체혁신센터장(부사장)은 "삼성 파운드리는 반도체 기술을 발전시키면서 획기적인 인공지능(AI), HPC(고성능컴퓨팅), 데이터 센터 솔루션을 시장에 출시할 것"이라며 "그록과의 협업은 삼성 파운드리가 새로운 AI 혁신을 위해 공헌하는 증거가 될 것"이라고 설명했다.

 



출처 : 테크월드뉴스, AI 코리아 커뮤니티, 중앙일보, tradingclue

 

뜨리스땅

 

 

728x90
반응형

댓글