본문 바로가기
반도체, 소.부.장.

젠슨황 엔비디아 GTC 2024 기조연설(Keynote Speech)

by 뜨리스땅 2024. 3. 19.
728x90
반응형

젠슨 황 CEO는 그의 상징과도 같은 검은 가죽 재킷을 입고 등장했다. 그는 “놀라운 일이 벌어지고 있다. 컴퓨팅의 근본적인 변화가 산업에 영향을 주고 있다”면서 2006년에 엔비디아가 제안한 쿠다(CUDA – Compute Unified Device Architecture)를 언급했다.

쿠다는 엔비디아가 그래픽 처리 과정의 효율화와 성능 향상을 고려해 개발한 명령어로 당시 페르미(Fermi) 설계에 기반한 지포스 GTX 400 시리즈 이상 그래픽카드에 적용되기 시작했다. 칩 안에 다수의 쿠다코어를 구성하고 데이터를 병렬로 처리해 성능을 높일 수 있었다. 이후 이 구조가 대규모 데이터 처리에 능하다는 것이 알려졌고 현재 인공지능 처리에 쓰일 정도로 발전했다.

쿠다와 컴퓨팅 산업 발전에 대해 언급한 젠슨 황 CEO는 컴퓨팅의 다음을 언급했다. 그리고 차세대 인공지능 가속장치이자 그래픽 처리장치(GPU)인 블랙웰(Blackwell)을 공개했다.

 

 

 

차세대 인공지능 가속장치 ‘블랙웰’ 공개

 

18일(현지 시각) 미국 새너제이에서 열린 'GTC 2024'에서 젠슨 황 엔비디아 CEO가 차세대 AI 반도체를 선보이고 있다./AFP 연합뉴스

 

 

젠슨 황 CEO는 “사람들은 우리가 GPU를 만든다고 생각하고 실제 만들고 있지만, 이제 GPU를 과거처럼 보지 않는다. (지금까지 최고급 AI칩으로 여겨졌던)호퍼는 세상을 바꿨지만, 지속 가능한 컴퓨팅을 위해서는 더 큰 칩이 필요하다”라며 차세대 인공지능 연산장치 코드명 블랙웰을 공개했다.

 

18일(현지 시각) 미국 캘리포니아 새너제이에서 열린 엔비디아의 개발자 콘퍼런스 ‘GTC 2024′ 행사에서 키노트 연설을 위해 무대에 오른 젠슨 황 엔비디아 최고경영자(CEO)가 회사의 차세대 AI반도체인 ‘B(블랙웰·Blackwell)100′을 손에 들어 올리며 이렇게 말하자, 1만여석의 관중석에선 환호와 박수가 쏟아졌다.

 

반도체 업계에선 “AI훈련에 가장 적합한 반도체로 꼽히는 H100은 수요가 폭발하며 개당 2만 5000~4만 달러에 거래되는데, B100의 가격은 5만 달러 수준이 될 것”이라는 분석이 나온다. 실제로 이날 젠슨 황은 “(블랙웰 시리즈가)한 수천만 달러는 할 것”이라고 농담을 하며 고가품임을 시사하기도 했다.

 

 

 

젠슨황 엔비디아 CEO가 GTC 2024 기조연설에서 블랙웰을 소개하고 있다. (출처=엔비디아)

 

 

블랙웰은 2022년 공개된 엔비디아의 ‘호퍼’ 아키텍처(프로세서 작동방식)를 대체할 차세대 기술로, 이 시리즈의 가장 기본적인 제품인 B100은 전작 H(호퍼)100에 비해 데이터 연산 속도가 2.5배 빨라졌다. B100이 2080억개의 트랜지스터로 구성돼, 기존 H100(800억개)를 넘어섰기 때문이다. 다만 현재 기술상 이렇게 많은 트랜지스터를 한 칩에 다 넣을 수는 없어, B100은 내부적으로 두개의 GPU를 연결해 하나의 칩처럼 작동하게 하는 방식을 취했다.

 

블랙웰의 제품명은 B200이다. 엔비디아는 이번 칩을 독특하게 구성했다. 2개의 칩을 하나로 구성한 것이다. 덕분에 칩은 호퍼의 2배 가량으로 거대해졌으나 처리 속도는 크게 높일 수 있었다. 칩 옆에는 데이터를 빠르게 주고받을 수 있도록 192GB 용량의 HBM3e 메모리를 배치했다. 엔비디아는 H100 대비 최대 30배 성능 향상을 이뤘다고 설명한다.

 

블랙웰은 호퍼 대비 큰 폭의 성능 향상이 이뤄졌음을 강조한다. 특히 B200에는 2세대 트랜스포머 엔진이 적용됐는데 FP4, FP6 단위의 부동소수점 연산 기능이 새로 추가됐다. 기존에는 반정밀도(FP16) 이하의 부동소수점 연산을 FP16 처리 코어에서 직접 처리했기에 효율이 떨어지는 부분이 있었지만, 이번에는 코어 1개가 점유하는 구조를 어느 정도 개선했을 것으로 예상된다.

 

2세대 트랜스포머 엔진을 통해 블랙웰은 호퍼 대비 부동소수점 연산 능력을 5배 이상 높였다. FP8, FP6 연산은 20 페타플롭스(PFLOPS), FP4 연산은 40 페타플롭스에 달하는 성능을 보여준다.

 

 

젠슨 황 CEO는 “두 칩을 하나로 구성했지만, 우려하는 성능 저하는 없을 것”이라고 강조했다. 두 칩 사이를 초당 10 테라바이트(TB/s)의 대역폭으로 이동하며 메모리와 캐시 사용에도 문제가 없다고 덧붙였다.

GB200은 2개의 B200 칩과 그레이스(Grace) 설계 구조의 중앙처리장치가 하나로 구성된 형태다. 그레이스 처리장치는 ARM 설계를 바탕으로 전력소모는 낮추면서 최적의 성능을 내는데 초점이 맞춰져 있다. 무엇보다 구조를 단순하게 만들어 크기를 대폭 줄인 것이 인상적이다. 제한적인 데이터센터 내 공간에 많은 장치를 구성, 성능과 효율을 높이는 방향으로 설계가 이뤄졌음을 알 수 있다.

 

젠슨 황은 “블랙웰은 모든 산업에서 AI를 구현시키며, 우리 회사 역사상 가장 성공적인 제품이 될 것”이라고 힘주어 말했다. 모든 영역에서 AI로의 전환이 이뤄지는 가운데, ‘사재기’현상까지 나타났던 H100 못지 않게 B100에 대한 수요도 폭발할 것이라는 자신감을 내비친 것이다.

 

그는 이날 키노트에서 생성형AI인 GPT모델을 훈련하는데 각각 다른 GPU를 사용했을 때 쓰이는 시간을 비교해보이기도 했다. H100을 사용할 경우 GPT 훈련에는 8000개의 GPU를 써서 90일이 필요했지만, B100의 경우엔 같은 기간에 단 2000개의 GPU만 필요하다. 전력 소모도 H100은 15MW(메가와츠)에 달하지만, B100은 4MW로 크게 줄었다.

 

블랙웰은 수학자 데이비드 블랙웰(David Harold Blackwell)에서 따왔다. 통계, 게임 이론 및 정보 이론을 전문으로 다룬 미국의 통계학자이자 수학자로 알려져 있다. 엔비디아는 그간 자사의 칩 코드명을 수학자, 물리학자 등의 이름에서 채택해 왔다. H100의 코드명인 호퍼도 코볼의 어머니이자 컴퓨터 과학자였던 미 해군 제독 그레이스 호퍼(Grace Hopper)에서 유래한 것이다.

 

이 새로운 아키텍처는 2년 전 출시된 엔비디아 호퍼(Hopper) 아키텍처의 후속 기술이다. 블랙웰은 최대 10조 개의 파라미터로 확장되는 모델에 대한 AI 훈련과 실시간 거대 언어모델(LLM) 추론을 지원한다. 특히 블랙웰 아키텍처 GPU는 2080억개의 트랜지스터를 탑재한 세계에서 가장 강력한 칩이다.

 

엔비디아는 AI시대의 대규모 연산을 위해 블랙웰칩을 겹겹히 쌓은 하나의 ‘수퍼컴퓨터’ 형태로 판매하겠다는 계획이다. 블랙웰 GPU 2개에 자체 중앙처리장치(CPU)를 포함한 ‘GB200′을 하나의 ‘수퍼칩’으로 보고, 이를 36개 쌓고 데이터 전송 속도 등을 최적화한 하나의 시스템으로 내놓겠다는 것이다.

 

엔비디아 관계자는 “단순 GPU로 비교했을때보다 시스템 최적화를 했을 때 연산 속도 등 모든 성능이 전작 대비 월등히 좋아진다”고 설명했다. 이미 AI반도체 시장의 80% 이상을 장악하고 있는 엔비디아가 AMD 등 후발주자와의 격차를 늘리고 나선 것으로 분석된다. 실제로 이날 젠슨 황은 글로벌 클라우드 3대 업체인 아마존, 마이크로소프트, 구글의 클라우드를 포함한, 델, 메타, 마이크로소프트, 오픈AI, 오라클, 테슬라 등 많은 기업이 블랙웰을 도입할 계획이라고 밝혔다.

 

메타 창립자 겸 CEO인 마크 저커버그는 "AI는 이미 대규모 언어 모델부터 콘텐츠 추천, 광고, 안전 시스템에 이르기까지 모든 것을 지원하고 있으며, 앞으로 그 중요성은 더욱 커질 것"이라며 "엔비디아 블랙웰을 사용해 오픈 소스 라마(Llama) 모델을 훈련하고 차세대 메타 AI와 소비자 제품을 구축할 수 있기를 기대한다"고 말했다.

 

 

 

하드웨어와 소프트웨어로 엔비디아 AI 생태계 구축 강조

 

젠슨 황 CEO는 기조연설에서 차세대 인공지능 가속처리장치 공개 외에도 디지털 트윈에 대한 사례와 로보틱스, 인공지능 발전 등에 대해 언급했다. 그는 “우리는 많은 것을 디지털화하고 있다. 구조가 있는 한 모든 것을 디지털화할 수 있다. 생성형 인공지능 혁명은 지금부터”라고 말했다.

엔비디아는 인공지능을 적극 활용해 데이터 과학, 헬스케어 등 광범위한 분야에 적용되도록 준비했고 동시에 엔비디아 추론 마이크로서비스(NVIDIA Inference Microservice)를 제안했다. 오픈 소스로 사전 훈련된 인공지능 모델을 패키지로 제공, 최적의 결과를 도출하는 방식이다. 자사가 개발한 컴퓨터 언어 쿠다(CUDA) 기반으로 작동한다.

엔비디아 추론 마이크로서비스는 엔비디아의 생태계 장악력을 높이는데 큰 역할을 할 전망이다. 개발자들이 주로 사용하는 라이브러리와 호환성을 최대한 제공하고, 선호하는 대규모 언어 모델 프로그래밍 프레임워크를 사용해 작업도 가능하다. 몇 줄의 코드만 입력하는 것으로 해당 서비스를 이용할 준비가 완료된다. 젠슨 황 CEO는 “NIMS(엔비디아 추론 마이크로서비스)가 모든 것을 실행한다”고 말했다.

옴니버스 플랫폼을 활용한 디지털 트윈 사례는 점점 강화되고 있다. / 출처=엔비디아

 

 

디지털과 물리적 환경을 연결, 산업의 디지털 전환을 지원하는 옴니버스(Omniverse) 플랫폼은 사례가 더욱 늘었다. 옴니버스는 실제 결과물을 내기 전에 가상 환경 내에서 미리 확인하고 현실에서의 문제를 최소화하는 과정을 지원한다. 예로 실제 공장을 건설하기 전에 가상의 공장을 만들어 실제 운용에 문제가 없는지 시험하거나 창고를 가상으로 만들어 효율을 예상해 볼 수 있다. 엔비디아는 옴니버스 클라우드와 애플리케이션이 더욱 단순하게 결합되는 것을 목표로 한다.

로보틱스 기술은 더욱 강력하게 진화했다. 트랜스포머 엔진이 적용된 엔비디아 젯슨 플랫폼과 아이작 시뮬레이션(Issac Sim) 패키지 등을 조합해 인간에 가까운 로봇 움직임을 구현해 나가는 중이다.

 

18일(현지 시각) 미국 새너제이에서 열린 GTC 2024에서 깜짝 등장한 로봇 '오렌지'./AFP 연합뉴스

 

2시간 넘게 이어진 기조연설 말미에는 엔비디아가 직접 훈련시킨 로봇 ‘오렌지’와 ‘그레이’가 깜짝 등장하기도 했다. 엔비디아는 이날 로봇 훈련을 가능케하는 플랫폼 구축을 위한 ‘프로젝트 그루트(GR00T)’를 공개하기도 했다. 이와 함께 블랙웰이 탑재된 로봇용 시스템온칩 ‘토르’를 공개하기도 했다. 엔비디아가 갖춘 반도체 및 플랫폼 역량을 총집합해 로봇 제조를 돕겠다는 것이다.

 

젠슨 황은 “여러분은 엔비디아의 영혼(soul)을 보고 계십니다”라고 했다. 테크 업계 관계자는 “AI의 종점은 로봇이고, 엔비디아의 역량을 한 곳에 모을 수 있는 것도 로봇”이라며 “로봇 제조를 강조하는 것은 엔비디아가 단순 반도체 업체가 아닌 ‘AI종합회사’로 도약하겠다는 야심을 드러낸 것”이라고 말했다.

 

 

 

 

엔비디아는 새로운 산업 혁명을 다수 제안했다. 가속 컴퓨팅을 활용한 생성형 인공지능, 블랙웰 플랫폼, 엔비디아 추론 마이크로서비스, 엔비디아 인공지능 파운드리, 옴니버스와 아이작 로보틱스 등이다. 하지만 아직 시장의 호응은 없는 상황이다. 미국 기준 3월 18일, 엔비디아 주가는 이전 대비 0.7% 상승한 884.55 달러에 마감했다.

 

 

 

 

출처: 동아일보, 조선일보, 이투데이, Nvidia, 김단테

 

뜨리스땅

 

 

동영상 풀 버전

 

https://www.youtube.com/watch?v=Y2F8yisiS6E

 

 

 

 

요약 버전(by 김단테)

 

https://www.youtube.com/watch?v=7F4a9b0doLA

 

 

 

 

 

https://tristanchoi.tistory.com/626

 

NVIDIA(엔비디아) GTC 2024 주요 관전 포인트

GTC 2024 행사 개요 오는 3월 18일부터 21일(미국 현지 기준)까지 세너제이 SAP 센터(미국 캘리포니아 소재)에서 GTC 2024가 개최된다. 엔비디아가 매년 진행하는 컨퍼런스로 그래픽 처리 관련 기술 외

tristanchoi.tistory.com

 

 

https://tristanchoi.tistory.com/613

 

CUDA: 소프트웨어 때문에 하드웨어를 못 바꾸나?

프로그래밍 언어, API, 프레임워크를 제공하는 CUDA CUDA(Compute Unified Device Architecture)는 2007년에 출시된 NVIDIA의 소프트웨어 지원 플랫폼으로 프로그래머들이 프로그램을 손쉽게 코딩할 수 있도록 도

tristanchoi.tistory.com

 

 

https://tristanchoi.tistory.com/612

 

NVIDIA GPU의 Core 구조: CUDA Core와 Tensor Core

1. CPU와 CPU의 Core CPU와 마찬가지로 GPU 내부에도 연산을 처리할 수 있는 Core들이 존재한다. 하지만 CPU와 GPU Core 구성에는 큰 차이가 존재한다. CPU는 하나의 Core가 순차적으로 직렬 처리되는 프로세

tristanchoi.tistory.com

 

 

https://tristanchoi.tistory.com/609

 

엔비디아(NVIDIA) 아키텍처 로드맵

엔비디아는 2023년 10월 투자자 발표 슬라이드에서 "2024년 ~ 2025년의 차세대 '서버(데이터센터) GPU' 로드맵이 공개했다. ①-1. 서버(데이터센터) 'GPU' : x86 마이크로아키텍처 '훈련 & 추론' - 2021년 : A10

tristanchoi.tistory.com

 

728x90
반응형

댓글