본문 바로가기
로보틱스

로봇 기업 탐구: Tesla. AI 와 로봇 기업으로의 확장 - 1

by 뜨리스땅 2023. 1. 1.
728x90
반응형

테슬라는 21 년 8 월 AI Day 에서 궁극적인 지향점은 ‘전기차를 넘은 인공지능(AI) 및 로봇 회사’이라 언급하면서, 로봇 산업에 대한 의지를 공식적으로 발표하였다.

 

또한 휴머노이드 로봇 Optimus 에 대해서 22 년에 프로토타입을 공개하고, 23 년부터 생산하기 시작하여 자사의 공장에 먼저 투입할 것이라 약속하였다.

 

Tesla 는 구체적인 청사진과 목표를 주기적으로 제시해왔는데, 첫 번째 목표(Master Plan 1)는 ‘전기차’, 두 번째 목표(Plan 2)는 ‘자율주행’이었다. 세 번째 목표는 핵심 기술을 기반으로 사업의 영역을 확장하는 것으로, ‘휴머노이드 로봇’이 확장의 시작점이다. 즉, 완전자율주행 기술을 이용해 모빌리티 산업에서 가장 큰 매출이 전망되는 로보택시를 포함하여 에너지/통신/AI/우주까지 영역을 확대하는 것을 목표하고 있다.

 

 

테슬라가 로봇 산업에 진출하게 된 첫 번째 이유는 자율주행 구현을 위해 쌓아온 핵심기술 때문이다. 자율주행과 로봇은 교집합적 기술로 엮일 수 있는데, 자율주행차는 센서와 컴퓨터를 탑재한 하나의 바퀴형 로봇으로 볼 수 있다. 그렇기에 그 동안 고도화시켜 온 다양한 요소기술들을 로봇에도 그대로 적용할 수 있는 것이다.

 

Optimus 로봇은 자율주행 차량과 Autopilot Camera, FSD Computer 를 공유하고 있으며, Multi-camera Video, Data Labeling, Simulation 등의 기술이 모두 적용된다. 즉, 이동성과 작업성 등 하드웨어 중심으로 발전해 온 기존 로봇 산업에 테슬라는 최첨단 소프트웨어와 인공지능 기술을 앞세워 진입하고 있는 것이다.

 

또한 로봇 산업 진출의 두 번째 이유는 역시 더 큰 시장에 대한 기대이다. 테슬라가 만들고자 하는 로봇은 휴머노이드 형태이기 때문에 성공할 경우, 더 범용성이 크다. 오늘날 다른 형태의 로봇은 완전히 사람을 대체하지 못하기 때문에, 사람이 담당하는 각각의 작업에 특화된 로봇들을 연결한다.

 

그러나 휴머노이드 로봇은 구조상 인력에 의존하고 있는 물류, 서비스, 제조 등 다양한 산업에 적용이 가능하다. 기존 로봇 시장에 대한 기대뿐만 아니라 이를 기점으로 더 성장할 무인화 시장에 대한 기대를 반영할 수 있다.

 

뿐만 아니라 더 많은 데이터를 수집하는 것이 가능하다. 자율주행과 로봇의 핵심은 AI를 이용한 데이터 학습이다. 테슬라는 자율주행을 개발해오면서 차량을 판매하여 데이터 수집의 개체로 삼고, 실 주행 데이터를 쌓았다. 이를 기반으로 양질의 데이터를 필터링하고, 시뮬레이션 데이터를 생성하여 학습하였다.

 

그러나 물체 인지, 경로 파악 알고리즘에 초점이 맞추어져 있다. 즉, 테슬라는 도로 위의 데이터에 제한되어 있다. Optimus 로봇은 3D 공정과 같이 사람이 직접 하기에 어려운 공정에 투입되는 용도이기 때문에, 도로 그 이상으로의 데이터 셋 확장을 기대할 수 있다.

 

결국 자율주행에서 쌓아온 AI 기술이 로봇에도 공유된다. 특히 로봇의 이동부와 관련하여서는 ‘인지-판단-제어’의 과정이 동일하게 적용된다. 다만, 작업부와 관련하여서는 AI 기술을 어떻게 적용할 것인지 지켜볼 필요가 있다. 22 년의 테슬라 Big Event 는 21 년과 동일하게 다시 AI 가 주제였다.

 

AI Day #1 이 자율주행의 알고리즘과 로봇 산업 진출에 대한 발표였다면, AI Day #2 는 그 연장선상에서 자율주행의 알고리즘을 로봇에 어떻게 적용할 것인지, 보행과 파지 등 로봇에 특화된 이동과 작업에는 AI 를 어떻게 적용할 것인지에 대해 공개한 것인지로 이해해야 한다.

 

 

 

 

 

(1) Radar 도 필요 없는 카메라-Only Pure Vision

 

테슬라는 Pure vision 과 AI 기술로만 자율주행과 로봇의 비전센싱 처리

 

테슬라가 추구하는 자율주행의 가장 큰 특징은 8 대의 카메라만으로 기술을 구현하고자 한다는 것이다. 특히 2021 년 FSD Beta V9 부터는 Lidar 뿐만 아니라 Radar 도 없이 센서 포트폴리오를 구축했다.

 

Radar 는 전자파 기반의 센서로 악천후에도 주변 사물과의 거리, 속도 등을 측정할 수 있다. 그렇기에 정확한 인식과 안전을 위해서 카메라와 함께 탑재되었으며, Sensor Redundancy 와 Data Gathering 에 용이하다는 장점이 있다.

 

그러나 Radar 는 전자파로부터 데이터를 처리하는 과정에서 이미지 데이터를 바로 처리하는 카메라보다 Latency(지연/처리 시간)가 길다. 그렇기 때문에 급제동 등 순간적인 데이터 처리가 필요한 때에는 Radar와 카메라의 인식 충돌로 인한 Noise가 부정확한 정보를 제공하며, 테슬라는 안전성을 위해 오히려 Radar 를 제거하는 방향으로 자율주행 기술을 전환했다.

 

 

 

 

테슬라의 신경망에는 자동화된 RegNet 을 사용 - Design Principle 을 생성, 수십억 단위의 파라미터 처리가 가능하도록 설계

테슬라의 자율주행 센서는 항상 카메라가 중심이었지만, 카메라로부터 얻은 데이터를 어떻게 처리할 것인지에 대한 방법론은 계속해서 발전하고 있다. 모방의 대상인 사람 눈은 빛이 망막을 거쳐 뇌신경을 통과해 정보가 처리되는 구조다.

 

마찬가지로 자율주행이나 로봇에서도 대상이 카메라를 거쳐 디지털 신호화된 이후 인공신경망을 거쳐 정보를 처리하는 구조로 설계하고 있다. 우선 신경망의 백본(Backbone)에는 RegNet(Regular Network)이라는 네트워크 모델이 사용된다.

 

초기에는 수동으로 설계된 네트워크를 사용했지만, 점점 데이터의 규모와 네트워크의 깊이가 복잡해지면서 자동 네트워크로 고도화되기 시작했다. 과거에는 고정된 Design space 에서 최적의 Instance 를 찾았다면 RegNet 은 개별 네트워크 Instance 가 아니라 Design Principle 자체를 생성하기 때문에 수십억 단위의 파라미터를 처리하는 것이 가능하다. 이는 2020 년 Meta(구 Facebook)의 AI 리서치 팀에서 개발하였는데, 테슬라는 이를 자율주행에 적용해 다양한 규모의 해상도를 출력하는데 성공한 것이다.

 

 

 

테슬라는 원거리근거리의 다양한 해상도를 계층별로 출력, 이미지의 맥락과 세부사항을 판단

 

테슬라가 계속 강조하는 부분은 ‘사람과 같은 구조’이다. 원거리의 물체는 흐릿하게 보이다가, 거리가 좁혀질수록 정확하게 본다. RegNet 도 다양한 규모의 해상도를 계층별로 출력한다. 네트워크의 가장 상단은 채널 수가 높고 해상도가 낮지만, 하단으로 갈수록 채널 수는 낮아지고 해상도는 높아진다. 즉, 하단의 뉴런은 이미지의 세부 사항을 조사하고, 상단의 뉴런은 이미지를 보고 맥락을 추론한다.

 

이러한 프로세스는 BiFPN(Bi-directional Feature Pyramid Networks)으로 처리된다. 여기서 Pyramid 는 서로 다른 해상도의 Feature Map 을 쌓아 올린 형태를 의미한다. Feature Map 을 추출하여 물체 인지를 수행하는 방법에 따라 네트워크 모델이 분류되는데, FPN 은 임의의 Single-scale 이미지를 Convolutional Network 에 입력하여 다양한 Scale 의 Feature map 을 출력하는 네트워크이다.

 

보통 ResNet(Residual Network)를 백본으로 사용하지만, 테슬라는 RegNet 을 기반으로 여러 기준을 융합하는 양방향 FPN 을 구축하였다. 즉, 각각의 Input 이 가진 해상도가 다르기 때문에 Output 에 기여하는 가중치를 연산한다.

 

또한 주행을 하는 과정에서 회피해야 할 장애물 뿐만 아니라 교통 신호, 차선 등을 인지할 필요가 있다. 테슬라는 공통의 백본을 중심으로 각각의 엔진을 병렬 처리하는 HydraNet 레이아웃을 사용하고 있다. 즉, 물체 인식, 신호등 인식, 차선 인식 등을 위한 Detection Head 를 개별적으로 처리한다.

 

이는 주행하면서 추론이 가능하고, 헤드 아키텍쳐를 변경하거나 데이터 세트를 업그레이드하는 것이 용이하다. 또한 End-to-End 훈련에서 Multi-scale Feature Level 을 잠시 저장(Cache)하여 미세 조정하고 훈련을 재개하는 것이 가능하다는 장점이 있다.

 

https://www.youtube.com/watch?v=A0yGQVDGLWQ 

 

 

https://youtu.be/ODSJsviD_SU

 

 

 

to be continued

 

 

출처: 하이투자증권, 테슬라, Bloomberg

 

 

뜨리스땅

 

 

 

https://tristanchoi.tistory.com/389

 

로봇 기업 탐구: 테슬라 vs. 엔비디아

인공지능에 필요한 데이터를 가장 잘 다룰 수 있는 업체가 테슬라와 엔비디아 인공 신경망의 활용, 자연어처리 알고리즘의 발전 및 확산, 강화학습의 발전은 로봇의 뇌가 2019 년 대비 크게 도약

tristanchoi.tistory.com

 

728x90
반응형

댓글