본문 바로가기
반도체, 소.부.장.

생성형 AI를 위한 반도체 기술 trend 1/2

by 뜨리스땅 2024. 4. 14.
728x90
반응형

1. AI 추론 시장의 성장성

 

1) 학습(Training)과 추론(Inference)의 계산방식 차이

 

학습은 AI 모델이 주어진 데이터와 그 결과값을 이용해 여러가지 변수들 가운데 최적의 가중치(파라미터)를 찾는 과정이다. 개와 고양이를 판별하는 AI 모델을 예로 들 수 있다. 수만장의 고양이와 개의 사진에 그에 해당하는 결과값을 부여하여 모델의 가중치를 반복적으로 조절하게 된다. 학습 모델은 각 사진마다 개인지 고양이인지 예측하는 시도를 하고, 그 예측과 사전 부여한 결과값(라벨)을 비교한다. 결과가 틀렸다면 오차를 바탕으로 가중치를 업데이트한다.

 

이와 같은 계산을 여러 번 반복하며 모델은 점점 더 정확한 예측을 할 수 있도록 개선된다. 이 과정에서 가중치값(파라미터)의 개수를 늘릴수록 모델의 정확도가 향상되는데, GPT-3 모델의 파라미터는 1,750억개, GPT-4 모델의 파라미터는 1.7조개로 알려져 있다.

 

 

추론은 기 학습된 모델을 사용하여 새로운 입력 데이터에 대한 결과값을 예측하는 과정이다. 상기 모델의 학습이 완료된 후 새로운 사진을 제시했을 때 그 사진이 고양이인지 개인지 판별하는 것이 일종의 추론 과정이다. 학습 과정에서 수많은 연산을 통해 최적화된 가중치는 고정되어 있기 때문에, 추론에서는 새로운 사진을 입력으로 받아 예측값을 빠르게 출력하는 데 필요한 연산만 수행하게 된다.

 

 

 

2) 추론시장의 성장성이 큰 이유

 

AI 데이터 학습은 새로운 모델을 만들거나 기존 모델을 업데이트할 때 필요한 과정이다. 이는 대규모의 데이터와 하드웨어 리소스가 필요하며, 주로 데이터 센터와 같은 대형 인프라에서 이루어진다. 학습모델 시장 성장과 동시에 추론모델 시장 또한 빠르게성장하고 있다. 

 

추론시장은 응용분야와 적용기기 측면에서 각각 살펴볼 수 있다. 응용분야의 측면에서는 스마트폰 앱에서의 얼굴 및 음성 인식, 자율주행 차량의 주행 경로 예측 등 다양한 서비스 영역에서 AI 추론 기능이 활용되고 있다. 추론 기반의 서비스는 기 학습된 모델을 기반으로 수많은 응용분야에 적용될 수 있기 때문에 확장성과 다양성 측면에서 잠재력이 크다.

 

적용기기 측면에서는 스마트폰, IoT 디바이스 등과 같은 엣지 디바이스에서 AI 추론을 직접 수행하는 비중이 증가하고 있다. 데이터를 클라우드로 전송하여 처리하고 다시 피드백을 받는 대신, 개별 디바이스 내에서 직접 추론 연산을 수행함으로써 시간 지연을 최소화하고 데이터 보안을 지킬 수 있다. 모델 최적화 기법들이 발전하면서, 성능을 유지하면서 모델의 크기를 줄이거나, 추론 속도를 높이는 연구들이 활발히 진행중이다.

 

 

 

 

 

3) 학습과 추론의 반도체 측면에서의 차이

 

연산의 종류가 학습인지 추론인지의 여부에 따라 적용되는 반도체의 종류와 구조가 달리 적용된다. 프로세서의 측면에서는 학습 모델의 경우 일반 목적의 GPU(General Purpose GPU)를 주요 프로세서로 사용하는 경향이 크다. 모델의 종류가 다양하고 딥러닝의 방식이 지속적으로 진화하기 때문이다. 반면, 추론 연산은 특화된 전용 프로세서에서 수행될 수 있다. 모델 아키텍처가 상대적으로 고정되어 있기 때문이다.

 

한편, 메모리의 소요량 측면에서도 차이가 있다. 모델의 규모가 큰 학습 모델들은 많은 메모리를 필요로 한다. 학습의 대표적인 계산 과정인 역전파를 위해 중간 활성화를 저장해야 하기 때문이다. 반면, 추론 모델의 경우 중간 활성화는 오랫동안 저장할 필요가 없어 메모리 사용량은 학습 모델보다 일반적으로 낮다.

 

추론 작업을 위해서는, 최적화된 전용 프로세서인 TPU(Tensor Processing Units) 또는 FPGA도 사용될 수 있다. 특히, 엣지 디바이스는 저전력, 효율적인 추론을 위해 NPU(Neural Processing Units)와 같은 전용 칩을 사용할 수 있다. 다만, 추론용 프로세서의 경우 특정 모델 추론에 특화되어 있어 구조가 다른 모델을 제대로 실행할 수 없는 문제가 있다. 범용성이 떨어진다는 점이다.

 

그럼에도 불구하고, 추론용 AI 전용 반도체가 가진 강점은 엔비디아 AI 반도체(GPU) 보다 우수한 비용 효율성과 적은 전력 소비량 등이다. AI 서비스를 위한 인프라 투자비용이 비싸지고 있고, 환경적 측면에서 데이터센터의 전력효율성이 점차 중요해지는 작금의 시기에 추론 분야에서의 Non NVIDIA 전용 반도체가 주목받을 수 있다.

 

시장조사업체 Gartner에 따르면 AI 반도체 시장 규모는 2021년 347억 달러(약 42조 원)에서 연평균 16%씩 급성장해 2026년 861억 달러에 이를 것으로 전망된다. 추론용 AI 반도체의 시장 수요가 절대적으로 많다. 시장조사업체 트랙티카는 오는 2025년 AI 반도체 시장에서 추론용 AI 반도체의 점유율이 전체 AI 반도체의 78% 점유율을 차지할 것으로 예측했다.

 

 

 

 

2. AI 반도체 투자포인트

 

1) 추론 분야도 NVIDIA의 CUDA 생태계가 주도할 가능성

 

(NVIDIA 점유율 기반) NVIDIA가 GPU 높은 점유율을 유지할 수 있는 이유는 프로세서 자체의 경쟁력 뿐 아니라 자사 GPU 기반의 CUDA(쿠다) 소프트웨어 생태계의 요인이 크다고 알려져 있다. CUDA를 활용한 cuDNN(CUDA Deep Neural Network)이 AI 라이브러리를 선점함에 따라 이후 대부분의 AI 개발자는 이 라이브러리 위에 AI 모델을 구축하기 시작했다. Google의 Tensor Flow, Meta의 PyTorch 등 AI 선두업체의 프레임워크 마저 cuDNN 라이브러리를 채택하는 등 점차 개발자들은 CUDA 기반 라이브러리와 NVIDIA GPU에 익숙해지기 시작했다.

 

(CUDA 탈피 시도) 최근 AMD와 Intel이 각각 ROCm와 원API를 출시하며 CUDA 기반 GPU 소프트웨어 생태계를 대체하겠다고 나서고 있으나, NVIDIA가 십수년간 쌓은 영역을 후발주자가 단기간에 따라잡기 쉽지 않은 상황이다. NVIDIA 또한 DNN 라이브러리 뿐 만 아니라 다수의 CUDA 기반 소프트웨어 생태계를 구축하는데 대규모 자본을 투입하는 중이다.

 

(추론 시장 가능성) 다만, 추론 인프라는 NVIDIA GPU 대체의 여지가 일부 있다. Intel이 인수한 하바나랩스는 ‘Gaudi2’의 Mlperf 벤치마크 테스트에서 Nvidia의 A100 성능을 앞섰는데, 이는 cuDNN을 Intel의 원API로 교체했을 때 성능에 문제가 없음을 의미한다. 그러나, 하드웨어 제조사마다 칩에서 지원하는 기능이 동일할 수 없으므로 학습 단계부터 추론 인프라를 고려해 AI 모델을 설계하는 수밖에 없다. 이런 설계역량을 갖춘 주체는 극소수다.

 

(CUDA 탈피 시도) OpenAI는 오픈소스 언어 Triton을 이용해 GPT 모델을 개발했다. Triton은 학습 단계부터 DNN 라이브러리나 드라이버 등을 CUDA가 아닌 자체 소프트웨어로 쓰는 것이다. Meta와 Google, MSFT, AWS 등도 자체적인 AI 스택을 보유했거나 구축중인 것으로 알려져있다. 그러나, 상기 빅테크 업체들이 추론용 자체 AI 소프트웨어 스택을 공개할 가능성이 점차 줄고 있다. AI 주도권을 확보하기 위한 경쟁이 심화되고 있기 때문이다. NPU 프로세서 개발사들 또한 하드웨어 설계와 함께 소프트웨어 스택 개발에도 나선 사례가 있으나, GPU에 대한 완전한 독립은 불투명하다.

 

(결론) 당사는 AI 추론시장에서도 NVIDIA의 GPU 및 생태계 시장 점유가 지속될 가능성이 높다고 판단하며, NVIDIA에 대한 긍정적인 전망을 유지한다. 비록 빅테크 업체들의 자체 프레임워크와 라이브러리를 구축할 의지와 역량이 있지만, 헤게모니 확보 경쟁 가운데 개발 소스를 상호 오픈하기는 구조적으로 어려워 보인다. 빅테크사의 자체 추론 모델에의 NVIDIA 의존도는 떨어질 수 있겠으나, 그 외의 대부분의 추론 모델 운영주체에게는 CUDA외의 대안이 마땅치 않은 것으로 판단한다.

 

 

 

 

2) AI 추론용 IP 개발사의 확장성에 주목

 

앞서 언급했듯이, 추론시장 개화에도 Cloud 및 Datacenter의 AI 프로세서는 Nvidia의 경쟁력이 지속될 것으로 판단한다. 다만, 추론용 반도체 시장에서의 구조적 변화로부터 IP(반도체 설계 자산) 업체들의 수혜를 예상한다.

 

첫째, NVIDIA의 높은 점유율에도 불구하고 빅테크 및 탑티어 칩메이커들의 경우 자체 추론 프로세서를 만들고자 하는 시도는 지속될 것이며, 이와 관련한 상세한 예시를 전술한 바 있다.

 

이러한 변화 가운데 반도체 IP 설계 업체들의 중요도가 증대될 것으로 판단한다. NVIDIA와 경쟁하는 과정에서 막대한 시간과 비용을 필요로 함에 따라 반도체 설계 분업의 니즈가 커지기 때문이다. 통상 SoC 개발기간 3.5 ~ 5년인데, IP 하는데 1 ~ 2년, 이후 디자인하우스를 거치는 기간이 2년정도로 총 8 ~ 9년여가 소요된다. 여러 회사들이 분업을 하게 되면 기간이 단축되고 비용을 절감할 수 있다.

 

둘째, 엣지디바이스 시장에서의 AI 추론시장 개화는 칩메이커 보다는 IP 업체에 더 큰 기회가 될 수 있다. AI 추론 시장은 점차 엣지디바이스로 확장될 가능성이 높다. 데이터를 클라우드로 전송하여 처리하고 다시 피드백을 받는 대신, 개별 디바이스 내에서직접 추론 연산을 수행함으로써 시간 지연을 최소화하고 데이터 보안을 지킬 수 있기 때문이다. AI 추론이 적용되는 대표적인 엣지디바이스는 자율주행차, 보안카메라, 스마트폰 등이다.

 

자율주행차나 Non-Mobile 디바이스에는 별도의 AI 추론 프로세서가 탑재될 가능성이 충분하다. 전력이나 공간상 제약이 상대적으로 덜하기 때문이다. 그러나, 스마트폰이나 IoT등 Mobile 디바이스에는 신규 프로세서의 추가 탑재는 사실상 제한적이다. BoM cost의 문제도 있지만, 무엇보다 공간상 제약이 크다. 스마트폰을 예로 들더라도 새로운 AI 프로세서가 탑재되는 것은 사실상 쉽지 않다. 따라서, 이러한 Mobile 디바이스에는 AI 추론과 관련된 IP가 기존 프로세서에 추가될 가능성이 높다.

 

Datacenter 용 Non NVIDIA 추론 프로세서의 지속적인 시도와 엣지디바이스에서의 제한적 여건가운데, AI 추론능력 탑재의 과정에서 IP 업체들의 수혜가 기대된다.

 

대표적 AI관련 IP 업체로는 나스닥의 ARM과 국내의 칩스앤미디어, 오픈엣지테크놀로지 등이 있다.

 

 

 

출처: 미래에셋투자증권

 

뜨리스땅

 

 

 

 

https://tristanchoi.tistory.com/643

 

생성형 AI의 기술 트렌드

1. 빠른 기술 확산의 속도: 비즈니스 전략의 중요성 확대 대형언어모델은 대량의 데이터를 대규모 모델로 학습하기 때문에 학습과 파인튜닝(특정 업무를 수행하기 위해 관련 데이터를 추가 학습

tristanchoi.tistory.com

 

728x90
반응형

댓글