본문 바로가기
반도체, 소.부.장.

AI 반도체 기술 - 3세대 AI 반도체 1/2

by 뜨리스땅 2023. 10. 15.
728x90
반응형

뉴로모픽의 사전적 의미는 생물학적 신경계 구조를 전자소자로 모방하는 기술이다. 인간의 뇌에서는 1,000억 개가 넘는 뉴런들은 100조 개 이상의 병렬로 연결된 시냅스들을 통해 동시다발적으로 신호를 주고받으며 정보를 처리하므로 고도의 연산이 저전력으로 수행된다.

 

기존의 컴퓨터 구조에서는 CPU에서 연산을 담당하고 메모리는 계산 결과를 저장하며, 각 전자소자의 역할이 명확하게 구분되어 있다. 이와 달리, 뉴로모픽 반도체 기술은 연산 기능을 메모리 반도체로 통합한 인-메모리(In-Memory) 컴퓨팅 구조를 채택하고 있다.

 

정보가 저장된 물리적인 공간에서 연산이 일어나기 때문에 대량의 정보가 CPU-메모리 간의 잦은 이동 없이 메모리 내에서 병렬연산이 수행되므로 전력 소모를 획기적으로 낮출 수 있다. 따라서 점점 메모리 반도체를 CPU에 물리적으로 가깝게 배치하는 니어(Near)-메모리부터 최종적인 인-메모리 형태의 구조가 제시되고 있다.

 

연산이란 단어를 다양하게 나타내어 프로세싱-인-메모리(Processing-in-Memory), 컴퓨팅-인-메모리(Computing-in-Memory), 로직-인-메모리 (Logic-in-Memory) 라고 표현하고 있다. 연산・저장을 동시에 메모리 반도체에서 구현하기 위해 전통적인 CMOS 기반의 실리콘 반도체로 구성된 SRAM을 사용하는 방식과 다양한 물리 방식에 의해 재료 내 저항 변화 방식을 이용하는 차세대 저항변화 메모리를 이용하는 기술로 분류할 수 있다.

 

메모리에서 연산・저장을 한번에 하는 AI 반도체는 신경계에서 정보를 저장함과 동시에 전달하는 생물학적 시냅스의 역할과 유사하기 때문에 전자시냅스 혹은 인공시냅스라 불리운다.

 

 

 

1. SRAM 기술

 

SRAM은 6~12개의 실리콘 반도체인 트랜지스터들로 구성된 메모리이다. 반도체 동작 속도가 매우 빠르고 높은 신뢰성을 갖고 있어 널리 사용되고 있으며, 초미세화 공정개발로 트랜지스터 크기가 머리카락의 5만분의 1에 해당하는 3 나노미터 이하까지 만들어지고 있다. 하지만 트랜지스터 1개의 크기는 아주 작게 제작될 수 있지만, 다수의 트랜지스터들을 배열해야 메모리 기능이 가능하므로 넓은 면적을 차지하고, 외부 전원을 끊임없이 공급해주어야 저장된 정보를 잃지 않는 휘발성을 갖고 있으므로 전력 소모가 크다는 단점이 있다.

 

 

미국 IBM은 2008년부터 미국 방위고등연구계획국(DARPA)의 SyNAPSE 프로젝트로 뉴로모픽 칩 개발을 시작했다. 2014년 국내 삼성전자의 반도체 위탁생산(파운드리) 서비스를 통해 인간의 두뇌에서 정보를 저장하는 생물학적 시냅스 역할로 28 나노미터의 크기를 가진 반도체로 구성된 SRAM을 메모리로 활용하여 2억 5,000만 개의 전자 시냅스를 구현하였다.

 

당시 개인용 컴퓨터에 탑재된 프로세서의 경우 수십에서 수백 와트의 전력을 소모하는 반면, IBM에서 개발한 뉴로모픽 프로세서의 소모 전력은 오직 수십 밀리와트(mWatt)로 에너지 효율적인 차세대 컴퓨터로 다양한 수많은 연산을 수행해야 하는 응용 분야에 적합할 수 있음이 보고되었다.

 

 

미국 Intel은 자사의 뛰어난 트랜지스터 반도체 공정 기술을 통해 14 나노미터 크기의 트랜지스터로 1억 2,800만 개의 시냅스를 구현한 Loihi 칩을 2017년 개발했다. 특히 생물학적 관점에서 두뇌에서의 뉴런은 시냅스를 통해 전달된 극성을 띈 Na+나 K+ 이온들로 전압이 높아지며 스파이크 신호를 만들어 낸다. 뉴런들이 서로 스파이크 신호를 주고받으며 소통하는 원리를 모방한 Intel의 Loihi 칩은 컴퓨터가 사용자의 패턴에 기초하여 스스로 학습할 수 있는 기능을 구현했으며, 범용 컴퓨터보다 최대 1,000 배 전력 효율을 높일 수 있다.

 

2021년에는 Intel 4 공정 기술로 반도체를 더 작게 제작하여 비슷한 수준의 1억 2,000만 개의 시냅스를 포함하고 있지만, 시냅스 소자가 차지하는 밀도를 향상시켜 뉴로모픽 반도체 칩의 크기는 절반으로 줄었지만 동일한 수의 시냅스 소자를 통해 연산 능력이 10배 향상된 Loihi2를 발표했다.

 

 

2. MRAM 기술

 

1960년대부터 오랜 기간 연구개발을 바탕으로 기술적으로 성숙한 실리콘 반도체이지만, 메모리 특성 구현을 위해 필요한 넓은 소자 면적과 휘발성에 의한 높은 소비전력은 궁극적으로 사람의 뇌의 존재하는 수천억 개 이상의 시냅스를 전자소자로 구현하여 고도의 인지 기능을 모방하는 데 한계를 가진다.

 

따라서 뉴로모픽 아키텍처에 적합하며 메모리 집적도가 높은 신개념 반도체 소자 기술을 도입하는 것이 가장 진보된 형태의 AI 반도체 기술로 볼 수 있다. 초미세 공정에 유리함과 동시에 저장된 정보를 영구적으로 보유할 수 있도록 차세대 비휘발성 메모리는 재료 내 다양한 외부 입력으로 저항이 변하는 특성을 기반으로 한다. 저항이 변하는 원리에 따라 구체적인 이름이 붙여진다

 

MRAM

 

N극과 S극으로 구분된 자석의 특성을 이용하면 정보를 빠르고 안정적으로 저장할 수 있다. 얇은 절연체로 구분된 2개의 자석의 방향이 서로 같으면 저항이 작고, 방향이 반대되면 저항이 높아져서 ‘0’과 ‘1’을 구분하는 자성메모리(MRAM)가 된다.

 

비휘발성 메모리 특성으로 전원이 꺼진 상태에서도 정보를 저장할 수 있어 대기 전력 소모를 낮출 수 있어 삼성전자는 2019년 스마트워치와 같은 소형 전자제품에 탑재되는 메모리로 MRAM 제품을 출하하며 양산을 시작했다.

 

이 기술을 바탕으로 삼성전자는 2022년 세계 최초로 MRAM 내 연산을 수행할 수 있는 인-메모리 컴퓨팅 기술을 구현하여 저전력 AI 반도체 칩 기술을 개발했다. MRAM은 동작 원리에 따라 저항값이 두 가지로만 구분되며, ‘0’과 ‘1’을 나타내는 저항값이 너무 작아 메모리를 통해 흐르는 전류가 높아 일반적으로 저전력 설계에 적합하지 않다고 알려져 있다.

 

삼성전자는 저항을 덧셈하는 새로운 연산구조를 도입하여 64×64 형태로 배열된 MRAM 어레이에서 전력 효율 405 TOP/W (Tera Operations Per Second Per Watt)을 달성했다. 개발된 칩은 숫자 인식은 최대 98% 및 얼굴 인식은 93%의 정확도를 보여 다양한 패턴 인식 분야에 적용될 수 있음을 시사했다. 하지만 MRAM은 2개의 정보만 저장할 수 있어, 강아지와 고양이는 정교하게 분류할 수 있지만, 세부적인 강아지(혹은 고양이의) 종을 파악하는 데 한계가 있다.

 

 

 

3. PRAM 기술

 

2019년 미국 IBM에서 제시한 기술 로드맵에 따르면 ‘0’과 ‘1’의 2개의 정보만 저장할 수 있는 기존 디지털 반도체 기술로 구현된 컴퓨터의 경우 단위 전력 당 연산할 수 있는 횟수가 점점 포화되고 있음을 보고했다.

 

컴퓨터가 사람의 손글씨를 인식하는 것을 넘어 자율주행차에 탑재되어 교통 표지판 등과 같이 복잡한 패턴을 빠르게 학습하고 정확하게 분류하기 위해서는 시냅스 소자로 사용되는 메모리가 ‘0’과 ‘1’로의 이진법 외에 ‘2’ 혹은 ‘3’ 이상의 여러 정보를 갖는 멀티레벨(혹은 아날로그) 특성을 확보해야 한다.

 

따라서 실리콘 기반 반도체나 자성을 이용한 MRAM 외에 새로운 소재에서 신개념 동작 원리를 갖는 차세대 메모리 기술이 필요함을 의미하고, 이는 회로-소자 외에 소재의 개발로 1,000배 이상의 컴퓨터 연산 효율이 가능해짐을 보여주고 있다.

 

원소 주기율표 8족(혹은 16족)에 위치한 Te등의 칼코겐(Chalcogen) 원소를 함유한 칼코지나이드(Chalcogenide) 계열 소재에서 전기적 신호로 인해 열이 발생하면 원자들이 규칙적으로 배열된 상태를 일컫는 결정질 구조가 무작위로 배열을 갖는 비정질로 변형되면서 전자들의 이동이 어렵게 된다. 결정질과 비정질의 가역적인 변화에 따라 저항 차이가 발생함을 이용하는 것이 상변화 메모리(PRAM)이다.

 

 

원자 배열된 정도에 따라 저항 값의 미세 조절이 가능하여 아날로그 정보 확보하는데 용이하다. 미국 IBM은 PRAM을 AI 반도체로 사용, 약 16만개를 배치하여 필기체 인식 시스템에 적용했다. PRAM 기반 AI 반도체 소자 개선으로 2014년 82.9%를 보이는 인식 정확도가 2017년에는 97%까지 향상될 수 있음을 보고하고 있으며, AI 반도체에 필요한 성능 조건을 연구자들에게 보고하는 등 차세대 비휘발성 메모리 기반 뉴로모픽 반도체에 대한 기술을 선도하고 있다.

 

 

뉴로모픽 HW 칩 구현을 위해선 다양한 방식의 신경망을 알고리즘으로 표현하고, 전자소자로 동작시킬 수 있어야 한다. 컴퓨터가 스스로 학습하여 정답을 예측하는 머신러닝에서 딥러닝은 인간의 신경망 원리를 모방한 방법이다. 2세대 학습 알고리즘이라고 알려진 역전파(Backpropagation) 모델을 이용, 그 외에도 미국 IBM은 3세대 학습 알고리즘인 스파이킹 신호를 이용하는 알고리즘을 소자로 구현하여 저전력 구동 가능한 칩 제작을 목표로 하고 있다.

 

신경세포 전달 원리에 따라 시냅스의 전/후로 연결된 뉴런에서 스파이크 전기 신호가 도착하는 시간 차이에 따라 각 뉴런의 연결 강도를 강화하거나 약화하며 정보를 장기적으로 기억하거나 단기로 기억하도록 한다. 위 과정을 PRAM AI 반도체의 전달되는 입/출력 신호의 시간 차이에 따라 저항 변화 정도를 조절하여 저전력으로 실시간 학습 가능한 칩을 구현하다.

 

 

미국 IBM은 아날로그 정보를 갖는 신소자 기반 AI 반도체 기술개발을 위해 2019년 2월부터 IBM Research AI Hardware Center를 운영 중이며, 전세계 신소자 연구자들이 각자 개발한 소자 특성이 시스템 접목 시 성능을 검증할 수 있는 시뮬레이션 툴을 오픈소스로 공개하고 있다.

 

 

 

4. RRAM 기술

 

저항변화 메모리 특성은 산화물 재료 내 산소 이온이나, 이온이 빠진 빈 공간을 의미하는 산소 공공(Oxygen vacancy)과 같은 결함들의 움직임에 의해서도 구현되며 이를 RRAM라 정의한다. 특히 전압 인가에 따라 결함들의 국부적인 움직임으로 절연체의 산화물 내 전자가 흐를 수 있는 길을 만들어 주면 저항의 변화가 나타난다.

 

절연체 내 전도성 길의 두께를 조절하면 아날로그 정보의 멀티레벨 특성을 얻을 수 있다. 특히 10 나노미터 이하의 초미세 공정에서도 메모리 특성이 구현될 수 있기 때문에 자성 메모리나 상변화 메모리 보다 집적도 측면에서 유리하다. 하지만 저항변화 메모리는 결함들의 무작위한 움직임을 조절하며 메모리 특성이 구현되기 때문에 특성의 불균일이 나타나 반도체 기업들의 제품 양산 및 대량생산의 걸림돌이 되고 있다. 따라서 현재까지 연구소와 대학에서 중점적으로 연구를 진행 중이다.

 

결함의 이동을 제어하여 다양한 특성을 구현할 수 있기 때문에 전자소자로 생물학적 신경계 뇌 거동을 정확하게 모사하여 간접적으로 뇌를 이해하려는 시도와 기존 소자의 한계를 대체하고자 하는 노력으로 구분된다. 최근 중국 칭화대학교와 미국 스탠포드 대학을 중심으로 뉴로모픽 HW 칩이 제작되어 다양한 응용 분야에 적용되고 있다. 중국 칭화대학교는 2020년 약 2,000개의 저항변화 메모리를 이용하여 손글씨 인식 시스템에 적용하여 1세대 AI 반도체인 GPU로 구성된 NVIDIA의 Tesla V100 보다 100배 에너지 효율이 좋은 칩을 발표했다. 2022년에는 미국 스탠포드 대학과 함께 약 60,000개의 저항변화 메모리로 구성된 어레이가 탑재된 뉴로모픽 칩(NeuRRAM)을 발표했다. 손글씨 인식의 경우 인간 수준과 가까운 99%의 높은 정확도를 보여주며 비행기 및 자동차 등의 컬러 이미지를 의미하는 CIFAR-10 데이터는 85.7%, GooGle 음성 명령은 84.7%의 정확도를 보여줄 수 있음을 보고했다.

 

비휘발성 메모리의 특성을 갖는 RRAM은 셀면적을 4F2까지 (F: 최소선폭) 줄일 수 있어 고집적이 용이할 뿐 아니라, 소자의 읽기/쓰기 속도가 빠르고, 안정적이며 전력 소모가 작다고 알려져 있다. 또한 구조적으로 간단하고 CMOS BEOL 공정과 호환되어 상용화에 어려움이 없다는 장점도 가지고 있다.

 

RRAM은 electroforming 과정에서 형성된 미세 전도 필라멘트(CF)가 외부 전압에 의해 두 전극 사이를 연결 또는 단락시키면서 HRS와 LRS 상태를 변경시키는 방식이다. 저항 변화를 이용하는 여러 형태가 있는 데, 크게 보면 유전체 내 삽입된 Ag, Cu, Ni 등의 금속 이온에 의해 생성되는 필라멘트에 의한 방식이 있고, 산화물 내에 생성된 산소 공공(oxygen vacancy)에 의한 방식이 있다. 이온 브리지에 의한 방식을 CBRAM 또는 ECM이라고 하고, 후자를 OxRRAM 또는 VCM이라고도 한다. 두 형태 모두 금속 이온 또는 산소 이온의 이동에 따라 형성/소멸되는 CF에 의한 저항값 변화로 정보를 저장한다.

 

또 다른 분류로는, 동작 전압의 극성에 반응하는 방식에 따라 유니폴라 스위칭(Unipolar Switching), 바이폴라 스위칭(Bipolar Switching) 방식으로 나눌 수 있다. 유니폴라 스위칭은 같은 극성의 전압을 사용하고 그 세기에 의해 set/reset을 조절하는 것이고, 바이폴라 스위칭은 set/reset 상태를 다른 극성의 전압으로 전환시키는 방식이다.

 

비휘발성 메모리로 응용하는 경우, RRAM이 해결해야 할 점은 내구성(endurance), 보존성(retention), 균일도(uniformity) 등이 있다. 내구성은 데이터의 반복적인 읽기/쓰기 동안 안정적인 동작을 유지하는 횟수를 의미하고, 보존성은 저장된 데이터가 유지되는 시간, 균일도는 소자를 구성하는 각 셀의 성능의 균일도를 의미한다.

 

RRAM을 플래시 메모리 등을 대체할 비휘발성 메모리로 사용할 경우, 앞서의 여러 특성들을 확보해야 할 뿐 아니라, 소자 어레이에서 발생하는 ‘sneak path’ 문제를 해결해야 한다. DRAM과 flash memory에는 transistor가 있어 임의의 셀을 독립적으로 접근하는 데 문제가 없는 반면, 크로스바 구조에서는 하나의 억세스 전극에 여러 개의 셀이 연결되게 되고, 이들 이웃한 셀로부터의 의도치 않은 누설 전류(sneak current)가 발생하게 된다.

 

 

이를 해결하기 위해서는 RRAM에서도 기존의 메모리와 같은 방식으로 셀마다 트랜지스터를 연결해 구성하는 것이 가능하지만 이 경우 RRAM의 장점을 잃게 되는 것은 약점이 된다. 최근에는 트랜지스터 이외에 다이오드나 임계 스위치(threshold switch) 등의 셀렉터(selector)를 연결하여 간단한 소자 구조는 유지하면서 sneak current 문제를 해결하려는 연구가 진행 중에 있다.

 

RRAM과 가장 밀접하게 연관되는 용어는 Memristor이다. 1971년 UC Berkeley 대학의 Leon Chua는 이론적인 추론에 의해 지금까지 알려져 있던 resistor, capacitor, inductor와 같은 2단자 소자 이외에 새로운 네 번째 소자의 존재를 예측했다. 새로운 특성의 소자를 memristor로 명명하였는데, 이는 memory resistor, 즉, 메모리 특성을 갖는 저항을 의미한다고 설명했다. 이후, memristor에 대해서는 이론적 논문 이외에 특별한 연구 결과가 없다가, 2008년 HP Labs.의 Stanley Williams 그룹에서 RRAM 소자가 memristor 특성을 갖는다는 것을 발표했다. memristor 특성과 시냅스 특성사이의 연관성이 알려지면서 이후 RRAM과 기타 비휘발성 메모리는 시냅스 소자로 집중적인 연구가 이루어지고 있다.

 

RRAM을 비휘발성 메모리로 사용하는 경우와 시냅스 소자로 사용하는 경우는 요구 특성에서 약간의 차이를 보이고 있다. 둘(1 bit) 또는 몇 개의 레벨(multi-bit)을 저장하는 RRAM이 비휘발성 메모리로 사용될 때는, 내구성, 보존성 및 균일성 특성이 우수해야 하는데, 시냅스는 여기에 더해 아날로그 특성이 강조되므로 전압-전류의 선형 특성과 반복성이 매우 중요한 요소로 추가된다. 이러한 특성은 실제 뉴로모픽 시스템 응용에서 학습/추론 과정에서의 속도/정확도와 밀접하게 연결되어 있다. 최근 시냅스 소자로의 응용을 위한 RRAM의 연구는 이러한 선형성 개선 연구가 주류를 이루고 있다.

 

 

출처: AI 반도체 표준화 보고서

 

뜨리스땅

 

 

https://tristanchoi.tistory.com/493

 

AI 반도체 기술 - 2세대 AI 반도체

1세대 AI 반도체 기술개발로 인한 컴퓨터 성능의 향상은 다양한 AI 알고리즘 개발을 이끌었다. 간단한 이미지 분석을 넘어 컴퓨터가 인간의 언어를 이해하고 해석할 수 있도록 하는 자연어 처리

tristanchoi.tistory.com

 

728x90
반응형

댓글