본문 바로가기
반도체, 소.부.장.

학습형 AI 반도체와 추론형 AI 반도체의 차이

by 뜨리스땅 2024. 2. 4.
728x90
반응형

1. 개략적 특징

 

1.1. 학습형 AI반도체

학습형 AI 반도체는 인공지능 모델을 학습시키기 위해 방대한 데이터와 복잡한 수학적 연산을 빠르고 효율적으로 처리할 수 있는 성능이 필요하다.

 

따라서, 학습형 AI 반도체는 GPU, TPU와 같은 가속기를 사용하여 병렬 처리와 분산 처리를 통해 높은 처리율 (throughput)과 전력 효율성 (performance per watt)을 추구한다.

 

하지만, 학습형 AI 반도체는 대게 범용성이 높은 형태로 설계되어 다양한 AI 모델에 적용할 수 있도록 하기 때문에, 학습 모델에 따라 사용하지 않는 회로의 구성도 범용성을 위해 추가되어야 한다. 이러한 범용성을 확보기위한 부분이 불필요한 전력 소모를 만들어서 제조 비용을 높이고 전력 소모를 증가시키는 요인이 된다.

 


1.2. 추론형 AI반도체

 

추론형 AI 반도체는 학습된 인공지능 모델을 사용하여 새로운 입력에 대한 출력을 생성하기 위해 적은 데이터와 간단한 수학적 연산을 빠르고 저전력으로 처리할 수 있는 성능이 필요하다.

 

추론형 AI 반도체는 학습형 AI 반도체와는 달리, 범용적인 AI모델이 아닌 특정 AI 모델에 특화된 설계를 함으로써 불필요한 전력 소모를 최소화하고, 비용 효율성과 적은 전력 소비를 달성한다.

 

 

따라서, 추론형 AI 반도체는 학습형 AI 반도체 대비 상대적으로 작은 설계로 만들어지며, 이로 인해 클라우드가 아닌 Device에 장착되는 On device 형태로 구현될 수 있다. 이러한 특징은 AI 서비스 상용화에 유리한 점으로 작용하며, 소형 기기에도 적용할 수 있도록 한다. 하지만 반대로 특정 AI 모델에 대한 의존성 때문에 상대적으로 범용성이 낮아 모델 구조가 다른 AI 모델에서는 제대로 실행되지 못할 수 있다.



 

 

 

2. 국내 업체들의 동향

 

국산 인공지능(AI) 반도체 산업의 미래 발전방향을 두고 기업·정부뿐 아니라 국내 기업 간에도 의견이 엇갈리고 있는 측면이 있다. 

 

한정된 자본·인력을 두고 AI 모델 학습과 추론(실행)을 모두 지원하는 '학습용 AI 반도체(Training NPU)'와 특정 AI 모델 실행에 특화된 '추론용 AI 반도체(Inference NPU)' 가운데 어디에 집중해야 미국 엔비디아가 독주 중인 전 세계 AI 반도체 시장에서 국산 AI 반도체의 지분을 확대할 수 있을지 고민이 되기 때문이다.

 

리벨리온의 1세대 NPU 아톰 및 보드

 

국내 AI 반도체 팹리스인 리벨리온의 박성현 대표는 작년 초 페이스북에 올린 글을 통해 "AI 반도체 회사들이 트레이닝 칩(학습용 AI 반도체)을 만들어야 한다는 분들께는 뭐라 드릴 말씀이 없다. 당장에는 학습 인프라 수요가 강하겠지만, 상용화 (AI) 서비스 시대가 도래하면 대규모 추론 인프라(추론용 AI 반도체)에 대한 수요가 훨씬 커질 것"이라고 밝혔다.

 

이는 과학기술정보통신부가 기획하고 있는 차세대지능형반도체 기술개발 1단계에서 국산 AI 반도체를 추론용에서 학습용으로 고도화하겠다는 계획 방향성과 반대되는 의견이다. 

 

박 대표뿐 아니라 다른 AI 반도체 업계 고위 관계자도 "추론용에서 학습용 AI 반도체로 고도화해야 한다는 정부의 방향성에는 공감하지만, 당장은 추론용 AI 반도체에 집중할 것"이라고 밝혔다.

 

반면 SK텔레콤·SK하이닉스의 자회사인 사피온은 학습용 AI 반도체 출시를 공식화한 상황이다. 내년 하반기 출시 계획인 AI 반도체 '사피온 X330~350'은 AI 학습과 추론을 모두 지원한다. 정부의 기술개발 계획과 뜻을 같이하고 있는 것이다.

이를 두고 업계에선 당장은 비슷해 보이는 국산 AI 반도체 업체들이 2~3년 후에는 서로 다른 사업 방향성을 보일 것으로 해석했다. 추론용 AI 반도체는 학습용 AI 반도체와 설계 및 용도가 다른 것이지 결코 하위 기술이 아니라는 것이다.

 

 

 

 

3. 향후 전망

 

시장조사업체 가트너에 따르면 AI 모델 확산으로 AI 반도체 시장 규모는 2021년 347억 달러(약 42조7000억원)에서 연평균 16%씩 급성장해 2026년 861억 달러(약 108조5000억원)에 달할 전망이다. 이는 전 세계 메모리 반도체 시장의 절반에 달하는 규모다.

 


데이터센터용 AI 반도체는 AI 모델 학습에 적합한 학습용 AI 반도체와 AI 모델 실행에 특화된 추론용 AI 반도체로 나눌 수 있다. 시장 수요는 추론용 AI 반도체가 절대적으로 많다. 시장조사업체 트랙티카는 오는 2025년 AI 반도체 시장에서 추론용 AI 반도체가 78%, 학습용 AI 반도체가 22% 정도의 시장 점유율을 차지할 것으로 예측했다.

추론용 AI 반도체의 가장 큰 강점은 엔비디아 AI 반도체(GPU)보다 월등한 비용 효율성과 적은 전력 소비다. 기업의 AI 서비스 비용이 치솟고, 데이터센터 전력 감축이 탄소중립의 핵심이 된 상황에서 해법으로 떠오르고 있다.

 


세계 최대 클라우드 사업자인 아마존웹서비스(AWS)는 이스라엘 AI 반도체 팹리스 '안나푸르나랩스'를 인수하고 자사 클라우드를 통해 추론용 AI 반도체 '인퍼런시아'를 선보였다. AWS에 따르면 인퍼런시아는 기존 엔비디아 AI 반도체 대비 최대 70% 저렴한 비용에 이용할 수 있다. 일례로 인퍼런시아를 아마존의 AI 비서 '알렉사'에 적용, 서비스 비용을 30% 절감하고 영상인식 속도를 8배 향상시켰다고 밝혔다.

 

이루다 2.0을 선보이며 자연어 처리 기술을 입증한 국내 AI 스타트업 스캐터랩도 연구 보고서를 통해 같은 AI 모델을 실행했을 때 AWS의 추론용 AI 반도체가 엔비디아의 추론용 AI 반도체(테슬라 A 시리즈) 대비 3분의 1, 학습+추론용 AI 반도체(테슬라 N 시리즈) 대비 5분의1 정도 저렴하게 이용할 수 있었다고 밝혔다.

 


이는 추론용 AI 반도체가 특정 AI 모델에 특화된 설계를 함으로써 불필요한 전력 소비를 최소화했기 때문에 가능한 점이다. 업계에 따르면 하이퍼스케일 데이터센터는 지방 중소 도시에 버금가는 전력을 소비한다. 이러한 데이터센터 내 전력 소비에서 IT 장비는 52%(서버 44%, 네트워크 8%), 냉각은 38%, 전력시스템은 10% 비율을 차지한다. 특히 IT 장비에서 엔비디아 AI 반도체의 비중이 최근 급증하는 것으로 알려졌다.

반면 사피온이 양산 중인 AI 반도체 X220은 동급 엔비디아 추론용 AI 반도체보다 전력 소모량 대비 성능(전성비)이 2.2배 우수해 더 적은 전력 소모로도 AI 모델을 실행할 수 있음을 입증했다.


다만 추론용 AI 반도체는 아직 가야 할 길이 멀다. 먼저 특정 AI 모델 추론에 특화되어 있어 구조가 다른 AI 모델을 제대로 실행할 수 없는 문제가 있다. 범용성이 떨어진다는 것이다. 일례로 AWS의 추론용 AI 반도체도 자연어 처리의 필수인 언어 생성 모델을 제대로 처리하지 못하는 문제를 드러냈다. 때문에 AI 서비스 상용화를 위해 AI 개발사와 AI 반도체 업체의 긴밀한 협업이 필수적으로 요구된다. 

학습용 AI 반도체보다 상대적으로 낮은 처리율(throughput)로 인해 단기간에 처리할 수 있는 데이터양(배치)이 적은 문제도 있다. 일반적인 AI 서비스를 제공하는 데 충분하지만, 초거대 AI와 같이 방대한 데이터를 처리하는 AI 모델을 실행하기엔 아직 부족한 점이 있다.

 

 

3.1. 초거대 AI에 필수인 학습용 AI 반도체

 

학습용 AI 반도체는 고대역폭 메모리(HBM)를 탑재함으로써 데이터 처리율을 끌어올린 것이 특징이다. 생산 단가가 비싸고 전력 소비도 많지만, 초거대 AI를 포함해 AI 모델 학습과 추론 어디에나 사용할 수 있는 게 강점이다. 지난해 화제가 된 '그림 그리는 AI(생성 AI)' 실행도 아직은 학습용 AI 반도체에서만 가능하다.

국내 기업이 경쟁력을 가진 추론용 AI 반도체와 달리 학습용 AI 반도체는 엔비디아의 독무대다. 전 세계에서 유일하게 슈퍼컴퓨터(HPC) 학습용 AI 반도체(테슬라 V 시리즈)를 시판하고 있는 데다가, 고대역폭 메모리끼리 빠르게 데이터를 주고받음으로써 AI 모델의 학습 속도를 끌어올리는 기술(NVLink)도 갖추고 있어 대부분의 기업이 AI 모델 학습에 엔비디아 학습용 AI 반도체를 이용한다.


실제로 지난해 11월 출시되어 IT 업계에 충격을 준 오픈AI의 '챗GPT'도 대량의 엔비디아 학습용 AI 반도체로 구성된 마이크로소프트 애저 HPC 클라우드에서 학습을 진행한 바 있다.

다만 학습용 AI 반도체 업계에서도 비용 효율성과 저전력을 확보하려는 움직임이 본격화되고 있다. 60W 내외의 전력을 소모하는 추론용 AI 반도체와 비교해 수백W의 전력을 소모하는 학습용 AI 반도체는 저전력·탄소중립이라는 전 세계적인 추세에 반한다는 것이다.

 


일례로 처음에는 추론용 AI 반도체로 시작한 구글의 AI 반도체 'TPU'는 지속적인 기술 개발로 현재는 엔비디아와 유일하게 기술적으로 겨룰 수 있는 학습용 AI 반도체라는 평가를 받고 있다. LG AI연구원과 카카오브레인은 구글 AI 반도체를 활용해 초거대 AI 모델을 학습시키고 있다.

 


학습용 AI 반도체는 반도체 기술과 함께 한국이 전 세계 최고 수준 기술을 보유한 고대역폭 메모리가 중요한 만큼 국내 AI 반도체 기업이 오히려 선도할 수 있는 분야라는 의견도 있다. 이에 사피온은 SK하이닉스와 함께 차세대 고대역폭 메모리인 'HBM3'를 활용한 학습용 AI 반도체 공동 개발에 착수하고 2025년 상용화하겠다는 목표를 제시하기도 했다. SK하이닉스 입장에서도 수요처가 엔비디아·AMD·인텔 등에 한정된 HBM 메모리의 공급을 확대할 수 있는 이점이 있다.

 

 

 

3.2. 추론과 학습은 별개 시장

 

업계에선 장기적으론 추론용 AI 반도체와 학습용 AI 반도체가 별개 시장을 이루며 공존할 것으로 보고 있다. 학습용 AI 반도체로 빠르게 AI 모델을 고도화하고, 이를 추론용 AI 반도체와 연결해 저비용·저전력으로 상용 AI 서비스를 제공하는 모습이 보편화될 것이란 설명이다.

 

KAIST 연구팀이 개발한 LPU의 구조 개요


이러한 점을 의식한 듯 업계 1위인 엔비디아도 자사 AI 반도체를 학습용, 학습+추론용, 추론용 등으로 세분화하며 전력 소비를 최소화하는 데 집중하고 있다.

다만 엔비디아 추론용 AI 반도체는 태생이 그래픽 처리장치(GPU)라 비효율적인 부분이 있는 만큼 처음부터 AI 모델 실행에 특화되어 설계된 국산 AI 반도체가 기술적으로 충분히 넘어설 수 있다는 게 업계 전문가들의 공통된 의견이다.

한 AI 반도체 업계 고위 관계자는 "어중간한 기술력과 시장 점유율로는 글로벌 시장에서 살아남을 수 없다.  엔비디아를 넘어서는 1위 AI 반도체 기업이 되는 게 사업 목표다"고 포부를 드러냈다. 

 


한편, 국내 AI 반도체 업계에선 과기정통부가 올해 추진하는 'K-클라우드용 AI 반도체 소프트웨어(SW) 기술개발' 사업을 두고 사업 방향성을 정부 주도의 통합 SW·라이브러리 개발보다 개별 AI 반도체 기업이 SW 인력을 지속해서 확충할 수 있게 직접적으로 지원하는 방향으로 바꿔야 한다는 목소리가 커지고 있다.

AI 반도체 기업별로 실리콘 구조가 다른 상황에서 출연연 주도로 개발한 통합 SW·라이브러리는 투자한 예산 대비 효율성이 크게 떨어질 수밖에 없다는 지적이다.

 


현재 국내 AI 반도체 기업들은 엔비디아 '쿠다' 라이브러리에 대항하기 위해 하드웨어(실리콘) 설계 인력 중심으로 구성되어 있을 것이란 세간의 인식과 달리 SW·라이브러리 개발 인력이 50~70%에 달할 정도로 SW 중심으로 전환한 상태다. 이들은 추론용 AI 반도체와 텐서플로, 파이토치 등 상용 AI 라이브러리를 연결하기 위한 가교 개발에 집중하고 있다.

 

 

 

출처: 아주경제, 과학기술정보통신부, 구글, 이뉴스투데이, 언론보도 종합

 

뜨리스땅

 

 

 

https://tristanchoi.tistory.com/578

 

AI반도체와 AI클라우드

AI 반도체 시장에서 클라우드 기업의 역할과 과제 AI 반도체가 개발된다고 해서 바로 클라우드 기업이 AI 반도체를 이용한 서비스를 제공할 수 있는 것은 아니다. AI 모델을 실제 하드웨어에서 연

tristanchoi.tistory.com

 

 

https://tristanchoi.tistory.com/635

 

리벨리온(Rebellion, AI 반도체 팹리스 기업) 최근 동향

1. 기업 개요 리벨리온은 Kaist 및 MIT 출신인 박성현 대표가 2020년에 설립한 스타트업으로 AI반도체인 NPU를 설계하는 반도체 회사다. 반도체 제조 공정 중 설계만 하는 fabless로 반도체 제조는 삼성

tristanchoi.tistory.com

 

728x90
반응형

댓글