본문 바로가기
반도체, 소.부.장.

AI 반도체에 대해 알아야할 주요 키워드

by 뜨리스땅 2024. 6. 15.
728x90
반응형

1. HBM의 중요성

 

고대역폭 메모리 (HBM)은 2013년 발표된 적층형 메모리 규격으로, 고성능 그래픽스 가속기 및 네트워크 장치와 결합하기 위해 사용되는 고성능 램 (RAM) 인터페이스를 의미한다. AI 반도체 시장이 급성장하면서 HBM 기술이 주류로 자리잡고 있다. AI 반도체의 경우 HBM 등의 메모리 반도체에 기반하여 그 성능이 향상됨으로, 두 시장은 함께 동반 성장하고 있는 추세이다. HBM은 현재 최고급 게임용 그래픽 카드 대부분에 사용되는 GDDR 메모리 대비 훨씬 더 높은 대역폭과 낮은 전력 소비를 제공하여 GDDR 대체 용도로 활용할 수 있다.

 

 

HBM 규격은 HBM, HBM2, HBM2E, HBM3로 구분하며, HBM3은 대역폭의 급격한 향상으로 개발이 늦어지고 있어 HBM2E가 대체재로 투입되었다. 현재 삼성전자, SK하이닉스 등의 주요 AI 반도체 기업이 HBM의 개발을 주도하고 있다.

삼성전자는 2020년 2월 스택당 최대 8-Hi, 최대 3.2GB/s, 410GB/s, 총 16GB를 지원하는 플래시볼트 HBM2E를 양산하고 있다. SK 하이닉스는 2020년 7월 HBM2E 생산에 이어, 2022년 6월 스택당 최대 12-Hi, 최대 6.4GB/s, 819GB/s, 총 16GB의 HBM3를 양산하고 있다.

 


엔디비아 (NVIDIA) 데이터센터 GPU ‘A100’은 2TB/s의 메모리 대역폭으로 80GB 의 HBM2E 성능을 제공한다. 인텔 (Intel)은 차세대 데이터 센터에 적용되는 제온 (Xeon) 프로세서의 차세대 서버용 칩 ‘사파이어래피즈 (Sapphire Rapids)’ 제품군에 HBM을 소개하였다.

 

 

2. 인공 신경망과 컴퓨팅

 

심층신경망 (DNN)은 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 인공신경망 이다. DNN 은 복잡한 비선형 관계들을 모델링 할 수 있으며, 분석 대상의 기본적 요소들에 대한 계층적 구성으로 분석 대상을 표현한다. 기계의 하위 유형인 DNN은 AI 부문에서 가장 주목받는 기술로, 대규모 작업을 병렬로 수행 가능하다는 점에서 인기를 끌고 있다. 심층 신경망 기술은 AI 학습의 정확성을 높일 수 있으나, 기존 컴퓨터로 감당이 어려워 실용화에 어려움이 존재한다.

 

 

엔비디아 (NVIDIA)는 대량 병렬 연산 기능을 가진 GPU 활용으로 심층신경망 실용 가능성을 높이고 있다. 만약 심층신경망 응용 기술이 실용화된다면, 향후 AI 반도체가 방대한 계산을 감당할 수 있을 것으로 예측된다.

 


미국 AI 프로세서 반도체 스타트업 신티언트 (Syntiant)가 딥러닝용 AI반도체 ‘NDP200’을 출시하였다. 딥러닝 및 반도체 설계가 NDP200 칩 솔루션에 결합되면 초저전력, 고성능 심층신경망 프로세서를 실행할 수 있는 것이 특징이다.

이 모델은 1mW 미만에서 정확한 추론으로 시각적 처리를 수행하며, 전 모델 ‘NDP100’ 대비 25배 이상의 처리량이 특징입니다. 궁극적으로는 이전 모델 대비 더 많은 신경 컴퓨팅을 도입하여 디바이스 인텔리전스(device intelligence)를 가능하게 할 것이라는 목표를 밝혔다.

 

 

 

3. RISC-V

 

명령어 집합 구조 (ISA)란 소프트웨어와 하드웨어 사이의 약속으로, 여러 명령어를 정의하는 것을 의미 한다. 현재 시스템의 구성 상태를 알 수 있으며, 명령어 실행 시 상태가 어떻게 바뀌는지 확인 가능 하다. AI 반도체 업계는 UC 버클리에서 2010년부터 개발하고 있는 오픈소스 명령어 세트 ‘리스크파이브 (RISC-Ⅴ)’에 주목하고 있다.

 


리스크파이브 시장 매출 규모는 2021년 4억 달러(약 5,246억원) 미만에서 2024년 10억 달러(약 1조 3,115억원) 규모로 성장할 것으로 예상되고 있습니다. 딜로이트 글로벌 (Deloitte Global)은 리스크파이브 프로세싱 코어 시장 규모는 2022년, 전년 대비 두 배로 성장할 것이라 예상하고 있으며, 2023년에는 해당 시장이 다시 두 배로 급성장할 것이라 예측하였다.

삼성SDS는 리스크 파이브 기반 고성능·저전력 컴퓨팅 솔루션 개발 기업 에스페란토 테크놀로지스 (Esperanto Technologies)와 함께 AI 추론 가속기 성능 테스트 ‘ET-SoC-1’를 진행하였다. ET-SoC-1는 64비트의 리스크파이브 프로세서 코어 1,088개를 탑재한 것이 특징이다.

중국 반도체 기업 또한 리스크파이브에 관심을 보이고 있다. 라이선스 비용을 절감하기 위해 리스크파이브를 채택하는 중국 기업이 많아지고 있는 추세이며, 중국 알리바바 (Alibaba)는 자체 엔지니어가 개발한 리스크파이브 CPU 코어를 사용하고 있다.

 

 

4. NPU

 

시스템 반도체는 데이터의 수집, 전송, 연산 등 전 과정에 활용되며, 이 중 인공지능 반도체는 데이터의 학습 추론 등 인공지능의 핵심 연산을 수행한다. 인공지능 기술은 대규모의 데이터를 고속 처리하면서 발생하는 비용 및 학습 시간과 함께 전력 소비도 증가하는 문제를 가지고 있으며, 이를 해결하기 위해 AI 반도체를 활용한다.

 



기존의 컴퓨터는 폰노이만 박사가 발명한 구조에 기반하고 있다. CPU를 통해 연산 된 결과를 메모리에 기억하고, NAND Flash와 같은 저장 장치에 기록하는 구조인 것이다. CPU와 메모리 사이를 전송회로(BUS)를 통해 연결하므로 처리속도가 느려지게 된다.

이러한 AI 연산에 관한 기존 반도체의 한계 (전력 소모 과다, 연산 효율 하락)를 보완하기 위해 ‘신경망처리장치(Neural Processing Unit; NPU)’, ‘지능형 메모리 반도체(Processor-In-Memory; PIM)’, ‘뉴로모픽(Neuromorphic)’ 등 차세대 AI 반도체가 연구·개발되고 있다.

 

 

NPU는 인간처럼 생각하고 판단하는 Computing Like Human을 인공지능에서 구현하기 위해 인간의 뇌처럼 촘촘한 병렬 구조의 뉴런(노드)를 지원한다. 그리고 연관된 뉴런들이 서로 연결되며 학습 과정을 반복하여 연관성의 정도를 수치로 계산할 수 있도록 최적화된 모델링 구조를 S/W적으로 갖추고 있다. 또한 수 억 개의 모델 변수를 최적화된 연산 구조로 병렬 처리하여 저전력 구현이 가능하므로 인공지능의 핵심인 딥러닝 알고리즘에 핵심적인 프로세서라고 할 수 있다.

 

GPGPU

 

신경망처리장치 (NPU)란 자극을 종합하고 판단하여 명령을 내리는 인간의 뇌를 모방해 만든 데이터 처리 장치로, 심층신경망을 사용하는 딥러닝에서 복잡한 행렬 곱셈 연산을 수행한다. NPU는 CPU, GPU 대비 AI 컴퓨팅 및 AI 어플리케이션 구현에 유리하다. 데이터 기반 병렬 컴퓨팅 아키텍처로 동영상 및 이미지와 대용량 멀티미디어 데이터 처리에 탁월하다는 장점 때문이다.

하지만 NPU는 구조상 다른 AI 알고리즘을 습득하기 어렵다. AI 알고리즘의 딥러닝 네트워크를 구성하는 신경망을 하드웨어로 구현했기 때문에 다른 알고리즘을 구현할 때 오히려 더 큰 시간과 비용이 소요될 수 있다. 따라서 GPU보다 범용성이 적다는 단점이 있습니다. 다만 AI 연산의 용도에서 NPU 는 GPU 대비 높은 효율을 보인다.

 

한국전자통신연구원(ETRI)는 AI 핵심 시스템 소프트웨어 딥러닝 컴파일러 ‘네스트(NEST-C)’를 개발하였다. 네스트의 개발로 AI 응용프로그램과 AI 반도체 간 이질성을 해소하여 AI 반도체 개발이 용이해 졌으며, CPU, GPU, NPU 프로세서 모두 호환이 가능하여 범용성이 높다는 장점이 있다.


또한 ASIC(주문형반도체)의 장점인 대량생산을 통한 ‘가격 경쟁력’ 확보가 뛰어나다는 장점을 가진다. 이에 대규모 데이터센터보다 가격과 크기, 전력 효율을 필요로 하는 엣지(Edge)나 게이트웨이(Gateway)에서 NPU를 주로 채택하고 있다. 또한 대부분 NPU는 스마트폰의 영상·이미지·음성 인식 등 AI 기반 기술에 사용되고 있다.

 

 

5. PIM

 

PIM(Processing-In-Memory) 또한 기존 반도체의 한계를 뛰어넘을 대안으로 떠오르고 있다. PIM은 연산과 메모리를 반도체 칩 내부에 동시에 존재하도록 하는 반도체이다. 그동안 많은 연구가 이루어져 왔지만 폰노이만 구조를 PIM으로 수정하기 위한 비용적 문제와 성능 및 전력 향상이 기대에 미치지 못한다는 기술적 이익 문제로 인해 큰 성공을 거두지 못하였다.

인간은 연산, 기억, 저장이 하나의 공간인 뇌(Brain)에서 이루어진다. 인텔이 인간의 뇌를 모방하여 만든 뉴로모픽 로이히 프로세서는 13만개의 뉴런이 수천개의 다른 뉴런들과 각각 통신하며 업데이트를 한다. 병렬로 연결된 뉴런을 갖춘 인간의 뇌처럼 동작하기 때문에 전통적 방식의 프로세서와 비교해 1,000배까지 빠르고, 최대 1만배 이상 효율적인 작업이 가능하다. 또한 뇌처럼 하나의 반도체에 메모리와 연산이 통합되어 있어 차세대 AI로 떠오르고 있다.

위 반도체가 발전하는 동안에는 GPGPU(General Purpose GPU)가 인공지능 시장을 이끌 것이다. GPGPU는 그래픽 처리를 위한 보조 장치였던 GPU를 보완하여 컴퓨터의 중앙처리 장치인 CPU를 대신하여 모든 데이터 연산 및 처리를 하는 GPU상의 범용 계산 장치이다. GPU는 여전히 가장 빠르게 성장하는 인공지능(AI) 반도체입니다.

중장기적으로 반도체 시장의 성장을 이끌 품목은 단연 AI 반도체이다. AI 반도체는 보다 범용화 되어있고, S/W적으로도 잘 지원되는 CPU, GPU 등과 재프로그래밍(Reprogrammable)이 가능한 FPGA, 그리고 Cloud 기업 위주로 자체 제작하는 전용 반도체 칩인 ASIC이 성장하게 될 것이다. 미래의 인공지능 시장에서 최고의 경쟁력을 갖출 SoC Accelerator인 NPU 계열의 반도체가 등장하며, 더욱 강력한 인공지능의 시대가 열리게 될 것이다.

 

 

 

6. 양자컴퓨팅

 

양자컴퓨팅 (quantum_computing)이란 원자 및 입자의 물리학을 활용해 정교한 병렬 계산을 수행하는 방법으로, 오늘날 컴퓨터 시스템에서 사용되는 단순한 형태의 트랜지스터를 대신하는 것이 특징이다. 양자컴퓨팅이 주목받는 이유는 복잡한 AI 연산을 빠르게 해결 가능하기 때문에 AI 분야의 비약적인 도약이 가능하기 때문이다. 양자컴퓨팅은 고전 이진 컴퓨터가 해결할 수 없는 계산 문제를 잠재적으로 해결 가능하다.

기존 컴퓨터는 존 폰 노이만(John von Neumann)이 제안한 폰노이만형 모델을 기본으로 한다. 전자의 동작을 0과 1로 이루어진 2진수로 바꾸어 연산하고 그 결과를 다시 인간의 인지 체계에 맞게 변경해주는 방식을 사용하는 것이다.


하지만 이러한 방식은 최근에 이르러서는 다음과 같은 3가지 큰 한계를 가지게 되었다. 첫째는 '무어의 법칙'의 한계이다. 무어의 법칙이란 반도체 집적회로 칩 내의 트랜지스터라는 부품의 집적도, 즉 1년 6개월 ~ 2년 정도 마다 반도체 칩 내의 부품 수가 2배로 증가한다는 법칙이다.

양자 컴퓨터의 특성을 구현하기 위해 필요한 몇 가지 기술들이 있다. 양자 컴퓨터는 기존 컴퓨터와 완전히 다른 방식으로 연산하기 때문에 양자 현상을 이용하여 문제를 해결하는 양자 알고리즘이 필수적이다. 대표적인 검색 알고리즘인 ‘Grover Algorithm’과, 소인수분해 알고리즘인 ‘Shor’s Algorithm’이 있다.

양자 컴퓨터의 상용화를 위해서는 더 많은 양자 알고리즘의 개발이 필수적이다. 뿐만 아니라 양자 오류 또한 해결되어야 한다. 원자 단위의 미시 세계에서 일어나는 물리적 현상을 이용하기 때문에, 그 현상을 제대로 컨트롤하기 어렵다는 문제점이 여전히 남아있다.

양자 컴퓨팅 기술은 아직 구체적이지 않으며 실용적인 활용 단계에 이르지 못했다. 그러나 고전 컴퓨팅의 한계가 점점 다가오고, AI와 IoT로 둘러싸이는 세상이 다가올 수록, 이를 처리할 수 있는 고성능 정보처리능력에 대한 니즈는 결국 양자 컴퓨팅 기술 발전을 앞당길 수 밖에 없을 것으로 전망된다.

IBM은 2021년 11월, 127개 큐비트를 탑재한 세계 최대 초전도 양자컴퓨터 이글을 공개하였다. 이글의 막대한 연산 능력은 새로운 분자 및 물질의 모델링 작업, 금융 사기 탐지 등에 활용 가능하다. IBM은 IBM 퀀텀 네트워크(IBM Quantum Network)에 가입한 파트너를 대상으로 이글 프로세서를 설치해 전세계적인 양자 생태계를 구축 및 상용화하겠다는 계획을 밝혔다. 또한 2025년 까지 4,000큐비트의 양자컴퓨터 시스템을 구축할 계획이라고 설명하였다.

중국의 테크 기업 텐센트(Tencent)는 ‘큐비트 주파수 제어 신호 처리 방법, 초전도 양자 칩’ 특허를 출원하였다. 특허를 통해 초전도 양자 비트의 주파수 제어 신호 왜곡을 측정할 수 있다.

 

 

 

 

7. AI 반도체와 클라우드

 

 

Cloud 시장은 코로나 19가 우리의 일상적인 생활과 업무의 모든 측면에 영향을 미치면서 IT기술에도 혁신이 가속화되고 있다. 특히 클라우드 컴퓨팅은 분야를 가리지 않고 모든 변화의 중심에 있었다.

가상화 기술의 발전과 경제 위기에 따른 IT자원관리 이슈로 인해, 클라우드는 2008년을 기점으로 성장하고 2011년 가장 높은 관심을 받았으며, 그 이후 클라우드의 활용은 IT 자원관리를 위한 대책으로 꾸준히 사용되고 있었다.

 

Cloud architecture


그 후 꾸준히 성장하여 글로벌 클라우드 서비스 지출 규모는 35% 성장하게 되었다. IDC에 따르면 국내 클라우드 IT 인프라 시장도 향후 5년간 연평균 성장률 15%로 2025년에는 2조 2,189억 매출 규모 전망을 예상하고 있다.

클라우드는 인공지능 기술의 발전과 밀접하게 연관되어 있다. 인공지능의 핵심 기술인 딥러닝 분야는 막대한 컴퓨팅 파워를 활용해 인공지능을 현실화하고 있다. 수많은 데이터를 학습시키면서 기계학습 모델을 만들어내고, 이를 바탕으로 데이터들을 실시간 분석 및 처리해야 하기 때문에 막대한 컴퓨팅 성능이 클라우드에 요구된다.

 

AWS AI architecture


클라우드 기업들의 목표는 인공지능 플랫폼 시장을 석권하는 것이다. 우리가 일상에서 접하고 있는 수많은 플랫폼 기업 역시 클라우드라는 거대한 손바닥 위에서 구동되고 있다.

클라우드는 데이터센터 속에 미리 구축되어 있는 대규모 컴퓨팅 자원을 인터넷을 통해 임대한 후, 이를 활용하여 어플리케이션이나 서비스를 개발하는 것으로, 현존하는 대부분의 IT 서비스 뿐만 아니라 인공지능, 자율주행자동차, 사물인터넷 등도 클라우드 위에서 개발되어 구동되고 있다.

즉, 인공지능은 점점 더 초대규모 데이터에 대한 복잡한 대규모 분산 기계 학습이 요구된다. 예를 들어, OpenAI사가 개발한 딥러닝을 이용하는 알고리즘인 GPT-3는 28만개의 CPU 코어와 1만개의 GPU를 동시에 사용한다. 데이터 학습을 위해 데이터를 분산시켜야 하며 학습된 모델을 결합시켜야 한다. 이는 클라우드 컴퓨팅 없이는 불가능하다.

또한, 학습할 때와 런타임 시의 필요 리소스 비대칭성이 있다. 학습할 때는 대규모의 장비와 시스템이 필요하지만 런타임 시에는 1/1000배 정도의 서버와 시스템 메모리 저장소 밖에 필요하지 안다. 클라우드를 통해 학습할 때의 비용을 줄이고, 대규모로 학습을 한 뒤 그 결과로 만들어진 모델은 필요시에 필요한 만큼 쓸 수 있도록 만들어줘야 한다.

결과적으로, AI를 이용하기 위해서는 수많은 데이터를 저장할 공간과 컴퓨팅 성능이 필요하고, 클라우드는 이를 충족시키는 가장 적합한 플랫폼이기 때문에, 인공지능과 클라우드의 결합은 필연적이라고 할 수 있다.

 

 


출처 : 디지털비즈온

 

뜨리스땅

728x90
반응형

댓글