본문 바로가기
반도체, 소.부.장.

NVIDIA의 Blackwell 설계 결함 및 마스크 수정 이슈

by 뜨리스땅 2024. 9. 12.
728x90
반응형

최근에 엔비디아 주가 하락의 배경에는 차세대 AI 가속용 GPU인 '블랙웰'(Blackwell)의 생산 과정에서 마스크를 변경했다는 사실 때문이었다. 이에 대해 짚어볼 필요가 있다.

 

 

 



마스크 변경의 배경과 블랙웰의 문제점

 


엔비디아는 지난 8월 말, 2분기 실적 발표에서 블랙웰 GPU의 생산 수율을 개선하기 위해 마스크를 변경했다고 밝혔다.

 

젠슨 황은 "포토마스크 변경이 완료됐다. 기능적인 변경은 필요하지 않았다. 현재 블랙웰, 그레이스 블랙웰, 그리고 다양한 시스템 구성의 기능 샘플을 샘플링하고 있다. 컴퓨텍스에서 선보인 약 100가지 유형의 블랙웰 기반 시스템이 구축돼 있으며, 엔비디아 생태계가 이를 샘플링할 수 있도록 지원하고 있다. 블랙웰의 기능은 그대로 유지되며 4분기에 생산을 시작할 예정이다"라고 설명했다. 

 

또한, 지난 9월 3일(현지 시간) 미국의 정보기술(IT) 전문지 '디인포메이션'은 AI 생산에 정통한 익명의 관계자 두 명을 인용, "엔비디아의 차세대 AI 가속기의 납품이 석 달이나 그 이상 지연될 것"이라며 "MS, 구글, 메타 등 수백억원 어치를 주문한 고객사에 영향을 줄 것"이라고 보도했다. 이어 MS 관계자를 인용, "엔비디아가 이번주 MS 등 고객사에 블랙웰을 포함한 첨단 AI 가속기의 '디자인 결함'을 알렸다"고 밝혔다.

 

 

 

 

마스크는 반도체 생산 공정에서 실리콘에 회로 패턴을 새기기 위해 사용되는 유리판으로, 한 번 설계가 확정되고 만들어지면 수정이 쉽지 않다.

 

마스크 제작 비용도 만만치 않을 뿐더러, 마스크를 바꾼다는 다는 것은 공정 순서나 방식을 바꾸는 후속 작업이 수반될 수도 있기 때문에, 마스크 변경에 따른 후속 작업에 대한 영향도 면밀히 분석해야 하기 때문이다.

 

이는 기본적으로 엔비디아가 이미 설계를 마친 블랙웰 GPU에서 일종의 문제점을 발견하고 이를 개선해야 했음을 우회적으로 인정한 것으로 볼 수 있다.

 

블랙웰의 설계 문제는 생산과 패키징(여러 칩을 한 칩으로 작동하게 하는 공정)을 맡은 대만 파운드리(반도체 수탁생산) 기업 TSMC의 엔지니어들이 발견한 것으로 전해졌다. 디인포메이션은 "엔비디아의 2개의 블랙웰 AI 가속기를 연결해서 만드는 'GB200'의 연결 부품에서 문제가 발생했다"고 적었다.

 

디인포메이션은 이어 "2025년 1분기까지 블랙웰의 대량 양산이 쉽지 않을 것"이라고 덧붙였다. 디인포메이션의 보도는 세계적인 경제전문 통신사 블룸버그도 인용 보도한 상태다.

 

 

 

HBM에 대한 영향

 

블랙웰의 납품 지연이 사실일 경우, 한국 메모리반도체 기업에 미칠 영향에도 관심이 커지고 있다. 블랙웰 AI 가속기엔 5세대 HBM(HBME3E) 8단, 업그레이드 버전인 블랙웰 울트라엔 12단 제품이 들어가는 게 예정돼있다. HBM3E 8단 제품은 SK하이닉스가 올 상반기부터 엔비디아에 납품하고 있다. 삼성전자는 블랙웰용 HBM3E 납품을 위해 엔비디아의 품질 테스트를 받고 있다.

블랙웰 납품이 지연된다면 HBM 생산 라인을 HBM3E 중심으로 전환한 SK하이닉스, HBM3E 양산 준비를 마친 삼성전자 모두에 부정적인 영향을 줄 것이란 전망이 나온다. 엔비디아가 H100 등을 중심으로 대응을 한다면, H시리즈에 탑재되는 4세대 HBM인 'HBM3' 수요가 커질 가능성도 있다. H100의 업그레이드 버전으로 현재 출시된 H200엔 HBM3E가 들어가기 때문에 SK하이닉스에 큰 타격이 아닐 것이란 분석도 있다.

 

 

 

반도체업계 관계자는 "디인포메이션에서 연결 다이의 '설계 결함'으로 문제점을 거론했기 때문에 한국 기업이 만드는 HBM의 불량은 아닐 것"이라고 분석했다.

 

엔비디아는 디인포메이션의 보도에 대해 공식 입장을 내놓지 않았다. 다만 블룸버그에 따르면 엔비디아 관계자는 결함 보도와 관련해 "(블랙웰) 생산은 예정대로 올해 말께 진행될 것"이라고 말했다. 구글, MS 등 고객사 관계자들도 별도 설명을 하지 않았다.

 

 


블랙웰 출시 일정

 


당초 블랙웰은 올해 4분기부터 공급될 예정이었다. 그러나, 디인포메이션을 비롯한 주요 외신은 엔비디아 신제품 출시가 수 개월 정도 밀리면서 실적과 주가에 모두 타격을 받을 것이라는 전망을 내놓았다.

모틀리풀은 증권사 UBS 분석을 인용해 “블랙웰 공급 시기는 예정보다 4~6주 정도 늦춰지는 데 그칠 것”이라며 대부분의 고객사는 영향을 거의 체감하지 않을 것이라고 전했다.

 

UBS는 엔비디아 인공지능 반도체 주요 고객사를 조사한 결과를 토대로 이런 예측을 제시했다.

엔비디아가 기존에 출시한 H100 등 주력 제품은 여전히 공급 부족 사태를 겪고 있을 정도로 인공지능 데이터센터 투자에 속도를 내는 IT기업에서 강한 수요를 확인하고 있다.

따라서 블랙웰 신제품 공급 시기가 몇 주 정도 늦춰지는 일은 엔비디아 실적 또는 고객사들의 투자 일정에 큰 변수가 되지 않을 것으로 전망된다.

다만 모틀리풀은 이번에 파악된 기술 결함 문제가 단기적 변수에 그치는 대신 엔비디아 인공지능 반도체 공급에 장기적으로 영향을 미칠 가능성도 있다고 바라봤다.

이번에 나타난 설계 결함 문제가 생산 수율 부진과 같은 악재로 남을 수도 있기 때문이다.

엔비디아가 인공지능 반도체 신제품 출시 일정을 무리하게 앞당기면서 이러한 문제가 발생했을 수 있다는 분석도 나온다.

당초 엔비디아는 신형 GPU를 2년마다 선보이기로 했지만 출시 주기를 과감히 1년으로 단축했다. 경쟁사 대비 기술 우위를 유지하기 위한 목적이다.

그러나 이처럼 무리한 출시 주기 단축은 블랙웰 공급 지연과 같은 리스크로 이어질 수밖에 없다. 반도체 테스트 및 설계 문제 해결에 필요한 시간도 그만큼 줄어들기 때문이다.

모틀리풀은 “엔비디아가 기술 리더십을 유지하는 동시에 제품 출시 일정을 맞추는 일은 쉽지 않을 것”이라며 “이는 계속해 리스크로 남게 될 수 있다”고 바라봤다.

구글과 아마존, 메타, 테슬라 등 주요 빅테크 기업은 인공지능 기술 경쟁력을 높이는 과정에서 엔비디아 인공지능 반도체에 절대적으로 의존하고 있다.

따라서 엔비디아 GPU 양산이 계획에 맞춰 안정적으로 진행될 수 있을지는 대형 IT기업 및 인공지능 산업 전반에 점점 더 중요한 변수로 떠오르고 있다.

다만 모틀리풀은 엔비디아가 안고 있는 여러 리스크에도 인공지능 반도체 시장에서 독점적 지위가 굳건해 관련 시장 성장에 계속해 수혜를 볼 것이라는 전망을 내놓았다.

 

 

 


성능 개선 효과

 


엔비디아는 마스크 변경 후 블랙웰 GPU로 ML퍼프(MLPerf) 테스트를 수행했다고 밝혔다. 테스트 결과, 블랙웰 GPU는 메타의 라마2 700억 개 매개변수 벤치마크에서 현재 주력 제품인 H100 대비 4배 이상의 성능을 보였다고 한다.

아무튼 이번 마스크 변경을 통해 엔비디아는 블랙웰 GPU의 생산 수율을 개선하고 성능을 향상시키는 데 성공한 것으로 보인다. 

 

 

뜨리스땅

 

출처: ZDnet, Business post, Techpowerup, ITworld, 한국 경제 등 

728x90
반응형

댓글