1세대 AI 반도체 기술개발로 인한 컴퓨터 성능의 향상은 다양한 AI 알고리즘 개발을 이끌었다. 간단한 이미지 분석을 넘어 컴퓨터가 인간의 언어를 이해하고 해석할 수 있도록 하는 자연어 처리 등 여러 알고리즘들이 새롭게 제시됨에 따라 수행 해야하는 연산량이 기하급수적으로 증가하고 있다.
따라서 범용적으로 사용되던 1세대 AI 반도체 기술과 다르게 AI 알고리즘을 빠르게 가속시킬 수 있는 전용 반도체가 필요하게 되었다. 광범위한 응용 분야 중 특정 목적만을 위해 맞춤형으로 설계된 ASIC을 AI 알고리즘에 최적화한 2세대 AI 반도체 NPU를 통해 1세대 AI 반도체 기술 대비 월등한 연산 성능과 높은 전력 효율을 보여주고 있다.
1. NPU 기술
광범위한 응용 분야 중 특정 목적만을 위해 맞춤형으로 설계된 ASIC을 AI 알고리즘에 최적화한 AI 알고리즘을 빠르게 가속시킬 수 있는 전용 반도체 NPU는 1세대 AI 반도체 기술 대비 월등한 연산 성능과 높은 전력 효율을 보여주고 있다.
Google의 거대인공신경망 프로세서 TPU는 2016년 처음 공개 발표 당시에는 정수연산 중심의 추론 가속용 반도체였으나, 현재는 Colab을 통하여 거대인공신경망 학습을 위한 프로세서로서 서비스하고 있다. 28nm 공정으로 제작하고 28MB의 온 칩 메모리, 23 TOPS의 연산 능력을 갖추었고, 2017년과 2018년에는 HBM을 탑재한 16nm 공정의 TPU v2와 TPU v3을 공개하였으며 TPU v3은 90 TOPS의 연산 능력을 달성했다.
2021년에는 TPU v4까지 공개했으며 7nm 공정에 144MB의 온 칩 메모리를 탑재하고 이전 버전인 TPU v3에 비해 2배 이상의 퍼포먼스를 달성하였고, 4,096개의 TPU v4 칩으로 이루어진 하나의 TPU v4 pod를 구축하였으며 기존 네트워크 기술과 비교하면 칩당 10배의 인터커넥트 대역폭을 갖춤으로써 하나의 TPU pod당 1 ExaFLOPS 이상의 연산 능력을 달성하고 있다.
Google은 TPU v4 pod를 Google 데이터센터에 탑재하였으며 2021년 내 이를 Google 클라우드 서비스를 통하여 사용자들에게 TPU v4 사용을 오픈할 예정이다. TPU v4를 기반으로 한 슈퍼컴퓨터는 최근 MLPerf 벤치마크 테스트에서 NVIDIA A100을 넘어서는 가장 높은 학습 성능을 달성하였고, TPU v3를 사용한 MLPerf 벤치마크 결과보다 최대 2배의 학습 성능 향상을 보인다.
Google은 Cloud TPU를 통하여 사용량에 따라 요금을 지불하고 TPU를 사용할 수 있도록 일반 사용자에 오픈했으며, 이를 포함한 cloud 서비스 매출이 2021년 상반기 기준 46억 달러에 육박 한다.
Tesla는 거대 인공신경망 GPT-3 학습을 위한 ‘Dojo’ 컴퓨터를 개발 중이다. Tesla는 2021년 8월 캘리포니아 팔로알토에서 개최된 테슬라 AI day에서 개발 중인 거대 인공신경망 구동을 위한 슈퍼컴퓨터인 Dojo 컴퓨터 프로젝트의 목적은 매우 크고 복잡한 딥러닝 모델을 높은 효율로 달성하기 위한 분산 컴퓨팅 아키텍처 개발이고, Dojo 컴퓨터에 탑재된 D1 칩은 트레이닝 노드 354개로 구성되며 25개의 D1 칩이 하나의 타일을 구성하고, 12개의 타일이 하나의 캐비닛을 구성한다.
그리고 Tesla에서는 D1 프로세서 및 GraphCore의 IPU MK2 프로세서는 설계 단계에서 거대 인공신경망을 주요 타겟으로 개발된 프로세서라고 할 수 있으며, 그로 인해 대용량의 온칩 메모리(D1: 442.5 MB, IPU MK2: 897 MB)를 탑재하도록 설계되었으며, D1 및 IPU MK2와 같이 대용량 온칩 메모리 구조를 지니는 프로세서의 경우 대용량의 단일 구조 메모리가 아닌, 다수의 분산된 온칩 메모리 형태를 통해 면적 대비 고용량의 총 온칩 메모리 용량을 달성하고, Tesla D1은 코어 당 1.25MB에 354 코어를 집적하여 총 442.5MB의 SRAM을 탑재하고 있다. GraphCore IPU MK2는 코어당 624KB에 1472 코어를 집적하여 총 897MB의 SRAM을 탑재하고 있다.
Cerebras는 웨이퍼스케일의 엔진(WSE), 즉, 웨이퍼 전체에 연산기를 배치하여 성능을 대규모로 확장한다는 개념의 새로운 프로세서를 개발했고, NVIDIA A100 대비 56배의 칩 사이즈, 1,000배의 온칩 메모리 사이즈, 12,862배의 메모리 대역폭을 갖춘 WSE-2 칩과 이를 기반으로 한 CS라는 AI 컴퓨터를 공개했고, 2021년 5월 CS-2를 이용하여 비교적 작은 트랜스포머 모델인 3억 개의 파라미터의 BERT 학습 결과를 발표했으며, 218.5시간이 걸리는 8대의 NVIDIA A100 GPU로 이루어진 DGX-A100과 비교하여 23.1시간 만에 학습에 성공했다.
관련하여 국내에 온칩 및 C2C, D2D에 대한 캐시 일관성을 보장하면서, 동시에 온칩 내의 IP 모듈을 메시 네트워크로 연결하는 연결망을 개발한 사례가 없고, 그 특허권을 보유하고 있는 기관 및 기업은 존재하지 않는 것으로 보인다. 프로세서 코어와 함께 동작하는 L1/L2 캐시에 대한 제어와 칩내 데이터 전송에 대한 프로토콜이 서로 상응해야 하는 측면이 있어, 고유의 프로세서 코어와 캐시 컨트롤러를 보유하고 있는 국외 기관 및 기업이 관련 연구개발 사업을 주로 진행하고 있다.
거대 인공신경망 뿐만 아니라, 빅데이터 등 다양한 HPC 어플리케이션에서 높은 용량의 온칩 메모리를 요구함에 따라, 데이터센터 급 프로세서에서 온칩 메모리 용량을 높이기 위한 시도가 많이 이루어지고 있다.
SRAM 기반 온칩 메모리 용량과 관련된 주요 경쟁기관의 기술은 일반적인 크기의 단일 칩 기준 수십~수백 MB 수준에 위치하고 있으며, Google의 TPU의 경우, 인공신경망 어플리케이션을 위해 설계되어, 특수목적으로 사용되는 전용 버퍼 등, CPU, GPU 대비 더욱 효율적인 온칩 메모리 사용이 가능하지만, 거대 인공신경망이 아닌 CNN, RNN 등 기존 널리 사용되는 인공신경망 어플리케이션의 연산을 주요 타겟으로 설계되었다.
2. Processing-In-Memory 기술
국내 PIM 반도체는 메모리 대기업을 중심으로 제품의 시장성 확보를 위한 성장 도입기에 있으며, 연구소와 학계에서는 PIM의 기술개념을 정립하는 단계에 있다.
DRAM에 연산로직을 집적하는 시제품이 대기업을 중심으로 연구초기 단계에 있으나, 메모리 대역폭의 극대화를 필요로 하는 응용을 대상으로 아키텍처와 SW를 동시 고려한 연구개발 추가 필요하다.
SRAM의 경우 대학을 중심으로 SRAM 기반의 로직 설계를 위한 회로 연구가 이루어지고 있으나 초기 연구단계로서 폭넓은 응용에 적용하기 위한 일반성을 확보한 PIM 기술 연구가 필요하며, 특히 MRAM, PRAM 및 신소자 메모리를 활용한 PIM 관련 신기술을 필요로 한다.
DIMM 형태의 DDR 메모리나 HBM에 PIM을 탑재한 반도체의 연산 대비 에너지 효율성 및 성능 향상 연구을 진행하고 있다. AMD는 HBM 기반 GPU에 PIM 기능을 HBM의 Base logic 다이에 추가하여, 에너지 효율성과 연산성능 향상 값을 추정한 결과 7% 속도 향상과 85% 에너지 효율성 증가를 보고하였고, UPMEM은 DIMM 형태의 DDR-4 메모리를 기반으로 한 PIM 구조 및 칩을 개발하고, 2019년에는 20배 가속, 10배 이상의 효율을 가지는 PIM 기술을 발표했다.
3. HBM 기술
HBM은 삼성전자, AMD, 하이닉스의 3D 스택 방식으로 DRAM을 적층하고 2.5D Advanced Package을 통해 고성능 RAM 인터페이스를 가지는 메모리이다. 그래서 고대역폭 데이터 처리를 요구하는 반도체와 결합하기 위해 사용된다.
HBM기술은 HBM2/2E 대비 대역폭이 2배 증가하면서 에너지효율이 향상되었고, 해당 기술을 활용한 HBM3 제품 규격을 개발했다. HBM은 인터포저를 이용한 advanced-2D 집적기술의 고밀도 범프와 고밀도 배선을 활용하여 1,024개의 데이터 전송선을 이용하여 메모리 대역폭을 크게 높인 메모리이며, DDR, GDDR과는 달리 인터포저를 이용해야 하므로 제작 난이도가 높은 단점이 있으나, 높은 대역폭, 짧은 레이턴시, 작은 폼팩터, 낮은 소모전력 등 성능상의 장점이 있다.
HBM의 공급 및 연구개발은 한국의 SK Hynix와 삼성전자가 주도를 하고 있다. 이미 메모리 반도체 분야에서는 한국이 58% 이상 점유율로 시장지배력을 확보하고 있는 상황이며, 최근 HBM에 대한 세계 시장 수요를 대비해 HBM 생산 비중을 높이고 있고, HBM2/2E 대비 대역폭이 2배 높은 HBM3 개발을 선도하고 있다.
SK Hynix는 이미 2021년 10월 819GB/s 대역폭을 지원하는 HBM3 제품개발을 발표했고 모듈당 16GB와 24GB 용량으로 제품출시 예정이며, 삼성전자는 2019년 3월 8-다이를 적층하여 모듈당 16GB 용량과 410GB/s 대역폭을 지원하는 HBM2E 제품을 발표했고, 2022년 HBM3 제품출시 예정이다. 그리고 마이크론에서는 16GB 용량과 410GB/s 대역폭의 HBM2E 제품을 개발을 완료했다.
4. 2.5D 패키지 기술
2.5D 패키지 기술은 패키지 기판 위에 실리콘 인포터저(데이터 송수신용)를 깔고 로직과 메모리칩(HBM)을 평면으로 나란히 배열하는 기술이다. 이렇게 패키징하면 데이터 송수신이 빨라지고 효율도 높아지며, 최종칩 패키지는 별도로 제작할 때보다 크기가 줄어들고 하나의 반도체가 동작하는 효과도 있다.
HBM을 탑재할 수 있는 advanced-2D 패키지 기술은 높은 기술력을 확보하고 있는 소수 업체에서 개발 중이다. TSMC는 2017년 1200mm2의 실리콘 인터포저 CoWoS-S2를 발표했고, 2021년 5개 배선층과 고밀도 전원커패시터를 내장하고 마스크 4개 일부중첩을 통한 2500mm2 크기의 대면적 실리콘 인터포저 CoWoS-S5 개발을 발표했다. (ECTC 2021)
삼성전자는 2018년 HBM 2개를 탑재한 I-Cube2, 2021년 HBM 4개를 탑재한 I-Cube4, 2021년 이종 기판을 활용하여 HBM 6개 이상 탑재 가능한 H-Cube 개발을 발표했다. (Samsung Newsroom 2021) Intel은 HBM을 포함한 멀티칩을 실리콘 브리지를 이용하여 집적할 수 있는 EMIB 기술을 발표했고, Amkor Korea는 실리콘 인터포저를 이용한 CoS와 CoW 패키지 제조공정을 개발하였으며, 다층 미세선폭 RDL 인터포저를 이용한 HDFO 패키지 기술개발을 발표했다.
인터포저 기반 advanced-2D 패키지의 대면적화 및 고성능 SI/PI 기술이 개발 중에 있으며, 이 기술은 대면적 로직다이의 수율 문제를 해결하기 위해 고안된 기술이었으나, 지금은 멀티 다이와 HBM 집적을 통한 패키지 수준 고성능 반도체 제작기술로 활용되고 있다.
더 많은 HBM과 로직다이 집적을 통한 고성능 반도체 구현을 위해, 대면적 인터포저 제작 공정개발 연구가 진행되고 있고, 실리콘 인터포저의 경우 2021년 포토레티클 3배 크기의 2500mm2의 대면적 인터포저가 발표했다. 인터포저 데이터 전송 속도 향상을 위해 배선금속 층수 확대 및 배선저항 감소 등의 고성능 배선제작기술을 연구 중에 있고, 인터포저 전원 잡음억제를 위해 커패시터 등의 수동소자를 통한 전원 안정화 기술을 연구 중에 있다.
출처: AI 반도체 표준화 이슈보고서
뜨리스땅
https://tristanchoi.tistory.com/492#comment14931449
'반도체, 소.부.장.' 카테고리의 다른 글
AI 반도체 기술 - 3세대 AI 반도체 2/2 (0) | 2023.10.16 |
---|---|
AI 반도체 기술 - 3세대 AI 반도체 1/2 (0) | 2023.10.15 |
AI 반도체 기술 - 1세대 AI 반도체 (1) | 2023.10.09 |
AI 반도체 기술 현황 - Overview (0) | 2023.10.09 |
AI 반도체 산업 현황 (0) | 2023.10.02 |
댓글