본문 바로가기
반도체, 소.부.장.

AI 반도체 기술 - 1세대 AI 반도체

by 뜨리스땅 2023. 10. 9.
728x90
반응형

AI를 위한 수학 및 알고리즘을 실제 컴퓨터로 구현하기 위해서는 수많은 정보를 바탕으로 간단한 연산을 반복적으로 수행해야 한다. 초기에는 일반적인 업무 처리에서 사용되는 범용 컴퓨터를 그대로 이용하였고, 컴퓨터 내 두뇌에 해당하는 CPU와 GPU가 1세대 AI 반도체의 역할을 한다.

 

CPU와 GPU 칩을 구성하는 가장 기본적인 단위는 대표적 반도체 소자로 알려진 트랜지스터이다. 트랜지스터를 점점 작게 만드는 미세화 공정 개발로 동일한 반도체 칩 크기에 형성할 수 있는 트랜지스터의 숫자가 18개월마다 두 배씩 증가한다는 무어의 법칙(Moore’s Law)에 따라 CPU와 GPU 칩이 탑재된 컴퓨터 연산 성능이 꾸준히 향상됨에 따라 AI 연구가 활발히 진행되었다.

 

 

CPU와 GPU 칩 내부를 살펴보면 외부 명령을 실행하고 제어하는 Control Unit, 덧셈과 뺄셈과 같은 연산을 담당하는 ALU, 계산을 위해 정보를 저장할 수 있는 메모리(Cache 혹은 DRAM)로 구성되어 있다.

 

GPU는 코어라고 불리는 ALU가 많아 연산을 동시다발적으로 처리할 수 있고, CPU는 상대적으로 적은 양의 코어에서 연산이 수행되지만 계산된 결과를 빠르게 제어할 수 있기 때문에 응용 분야에 따라 적합한 1세대 AI 반도체가 활용되고 있는 추세이다.

 

또한 칩 안에 정보를 저장할 수 있는 공간이 함께 탑재되어 있음을 의미하는 온칩 메모리의 용량을 높여, CPU와 GPU가 처리할 수 있는 정보의 양이 늘어나 연산 속도를 향상하는 방향으로 기술개발이 진행 중이다.

 

 

 

1. CPU 기술

 

CPU는 외부 명령을 실행하고 제어하는 Control Unit, 덧셈과 뺄셈과 같은 연산을 담당하는 ALU와 계산을 위해 정보를 저장할 수 있는 메모리(Cache 혹은 DRAM)로 구성되어 있다.

 

CPU 기술은 고유의 프로세서 코어와 캐시 제어기를 보유하고 있는 Intel, IBM 및 Arm에 의해 캐시 일관성을 보장하는 온칩 연결망과 오프칩 연결 인터페이스 개발이 이루어지고 있으며, 최근 멀티프로세서 코어 기반의 AI, HPC 용도의 프로세서 개발을 목적의 제품 등에 적용되고 있다.

 

Intel은 온칩메시 네트워크의 연결망을 통해 캐시 일관성을 제어하는 CHA를 분산 내장하여 L3 캐시와 그 상위 캐시들에 대한 상태를 확인하고 업데이트 하는 기능을 갖는 Knights Landing 아키텍처를 개발하였고 ‘Intel Xeon Phi’라는 제품에 적용하여 출시하고 있다.

 

Arm은 온칩메쉬 네트워크 상에서 캐시 일관성 기능과 최하위 캐시를 내장하고 있으면서 IP 연결을 위한 다양한 인터페이스를 제공할 수 있는 ‘Neoverse CMN’ 제품을 고성능 SoC 개발을 목적으로 하는 사용자에게 제공하고 있다.

 

IBM은 ‘Power10’ 프로세서 개발을 통해 온칩 상에서 자사의 프로세서 코어들을 온칩메시 네트워크로 연결하고 오프 칩 인터페이스로써 ‘Power AXON’과 ‘OMI’라는 고유의 인터페이스를 제공하여, 다중 노드 연결과 고속 외부 메모리 연결을 제공하고 있다.

 

 

2. GPU 기술

 

GPU는 Graphic 처리를 위한 병렬처리 성능을 높일 수 있는 SIMT 구조를 가지고 있으며, 이는 인공신경망의 Matrix, Convultion 연산을 병렬처리를 가속할 수 있게 인공신경망 처리에 활용할 수 있다.

 

GPU 기술 관련하여, NVidia에서는 V100, A100의 제품에서 인공신경망을 위한 F16, TC32 등의 Data Type 처리를 지원하고 있으며, 최근에는 HBM3를 탑재하여 더 높은 연산 성능을 가져가는 H100 제품이 출시되었으며, Microsoft는 GPT-3 학습 환경 구축함에 있어 V100을 활용하여 OpenAI와 공동으로 GPT-3 학습을 위한 고성능 컴퓨터를 구축했다.

 

OpenAI는 일론 머스크가 공동 창업자로서 2015년 10월 창업한 연구소이며 GPT-3 및 DALL-E 등 유명 트랜스포머 모델을 개발한 AI 연구기관이다.

 

1,750억 개의 파라미터를 가지는 GPT-3를 개발하면서 매우 높은 컴퓨팅 성능이 요구되자 Microsoft와 OpenAI는 파트너십을 확대해왔고, Microsoft의 클라우드 컴퓨팅 플랫폼인 Azure에서 GPT-3 전용 호스팅 홈을 발표했다.

 

GPT-3 학습을 위한 Microsoft의 컴퓨팅 클러스터는 NVIDIA V100 GPU 10,000개 이상의 GPU를 갖춘 슈퍼컴퓨터이며 이를 이용하여 학습에 성공했다. 2021년 11월 Microsoft는 제한된 사용자에 한하여 GPT-3를 사용할 수 있는 Azure OpenAI Service를 출시했다.

 

 

 

3. SRAM 기반 온칩 및 Near 메모리 기술

 

거대 인공신경망 뿐만 아니라, 빅데이터 등 다양한 HPC 어플리케이션에서 높은 용량의 온칩 메모리를 요구함에 따라, 데이터센터 급 프로세서에서 온칩 메모리 용량을 높이기 위한 시도가 많이 이루어지고 있다.

 

SRAM 기반 온칩 메모리 용량과 관련된 주요 경쟁기관의 기술은 일반적인 크기의 단일 칩 기준 수십~수백 MB 수준에 위치하고 있으며, Intel Xeon, NVIDIA GPU, IBM POWER 프로세서의 경우 인공신경망이 아닌 그래픽 연산 또는 HPC 응용프로그램 등 범용적인 목적으로 설계되어 비교적 작은 용량의 온칩 메모리를 지니고 있으며, L1, L2 캐시 등 다 수준 캐시 메모리 형태의 온칩 메모리로 구성되었다.

 

HBM을 채용한 고성능 AI 프로세서, FPGA, 프로세서가 다음과 같이 출시되고 있다. NVIDIA는 2020년 HBM2 메모리 6개를 접합하여 1,555GB/s 메모리 대역폭을 사용하는 고성능 tensor 코어 GPU A100 모델(코드명 Ampere)을 발표했고, HBM2E를 사용하여 메모리 대역폭이 2,039GB/s로 향상된 개선 모델을 출시했다.

 

AMD는 2020년 4개의 HBM2 메모리 4개를 사용하여 1,288GB/s의 메모리 대역폭을 사용하는 HPC 어플리케이션용 GPU Instinct MI100 모델(코드명 MI100 XL)을 출시했고, Intel은 2022년 양산 예정인 차세대 HPC CPU인 사파이어 래피즈와 2022년 발표예정인 차세대 HPC GPU인 폰테 베키오에 HBM을 집적할 것임을 발표했다.

 

Intel에서는 FPGA와 HBM2 메모리 2개로 구성되어 512GB/s의 메모리 대역폭을 제공하는 high-end FPGA Stratix 10 MX FPGA를 2017년 출시했고, Xilinx사는 2016년 2개의 HBM2 메모리로 460GB/s의 메모리 대역폭을 제공하는 Virtex Ultrascale+ high-end FPGA를, 후지쯔는 32GB의 용량과 1,204GB/s 메모리 대역폭을 제공하는 4개의 HBM2 메모리를 사용한 슈퍼컴퓨터용 프로세서 A64FX를 2019년 개발했다. A64FX는 슈퍼컴퓨터 Fugaku에 사용되었으며, Cray도 A64FX 칩을 이용하여 슈퍼컴퓨터를 개발 중이라고 발표했다.

 

 

출처: AI 반도체 표준화 보고서

 

뜨리스땅

 

 

https://tristanchoi.tistory.com/491

 

AI 반도체 기술 현황 - Overview

AI 반도체는 AI의 두 가지 핵심 기능인 학습과 추론을 구현하고 가속화 할 수 있는 반도체 기술을 의미한다. 기존에는 반도체에 정보를 영구적으로 저장하는 메모리 반도체와 반도체를 스위치로

tristanchoi.tistory.com

 

728x90
반응형

댓글