본문 바로가기

전체 글670

엔비디아 대항마? - 세레브라스(Cerebras) 1. 개요 세레브라스(Cerebras)는 오픈AI 창업자 샘 알트먼을 포함한 세계적 투자자들이 7억4000만 달러(약 9900억원)를 투자한 AI 반도체 기업이다. 현재 세레브라스의 기업 가치는 41억 달러(약 5조 5300억원) 에 달한다. 세레브라스는 현재 전 세계 스타트업 업계에서 가장 주목받는 AI 반도체 업체이다. 세레브라스 본사는 회사라기 보다는 연구실에 가까운 모습이었다. 라우드룸(소음실)은 냉각 팬이 돌아가는 소리가 요란했다.   양쪽 벽에는 거대 인공지능(AI)칩이 탑재된 서버들이 가득 진열돼 있었고, 우측에는 20갤런 규모의 물탱크 6개가 일렬로 장착된 냉각수 펌핑 시스템이 보였다. 소음실 밖 실험실에선 세레브라스 직원들이 현미경으로 냉각 시스템에 들어가는 부품을 살피며 토론하고 있었다.. 2024. 6. 22.
RAG 구현을 위한 효과적인 툴: 랭체인(LangChain) 랭체인(LangChain)은 노출하여 대규모 언어 모델과 애플리케이션의 통합을 간소화하는 SDK이다. 대규모 언어 모델의 부상과 함께 중요성이 커지고 있다. 대규모 언어 모델에 대한 최신 트렌드를 쫓는 소프트웨어 개발자라면 연일 쏟아지는 소식이 당황스러울 수 있다. 새로운 오픈소스 모델의 출시나 상용 모델 제공업체의 중요한 새 기능 발표가 매일 등장하는 상황과 비슷하다고 할 수 있다.어느덧 LLM은 최신 소프트웨어 스택의 한 요소로 빠르게 부상했다. 그러나 오픈AI와 같은 공급업체가 제공하는 모델 API를 사용하든, 오픈소스 모델을 앱에 포함하든 LLM 기반 애플리케이션을 구축하려면 단순히 프롬프트를 보내고 응답을 기다리는 것 이상의 작업이 필요하다. 매개변수 조정부터 프롬프트 보강, 응답 조정에 이르기.. 2024. 6. 20.
LLM의 추론 성능 향상을 위한 RAG 사용 시, 알아두어야 할 것들 https://www.youtube.com/watch?v=NfQrRQmDrcc&list=WL&index=1&t=45s  출처: 테디노트 뜨리스땅  https://tristanchoi.tistory.com/651 AI 모델 추론을 위한 VLLM이란 무엇인가? (feat. by Paged Attention)1. LLM inference의 특징 chatGPT 이후로 LLM에 대한 연구가 많이 활성화되었고, 그에 따라 최근에는 LLM 서빙을 다루는 경우가 많아지고 있다. 최근 LLM모델이 매우 커짐에 따라 serving비용이 매우 증가하tristanchoi.tistory.com 2024. 6. 20.
AI 모델 추론을 위한 최적화 모델: Triton Server & Tensor RT AI모델에 대한 학습이 끝난 이후, 실제 production 환경에서 모델을 서빙할 때 필요한 부분들은 학습할 때와는 다르다. 가장 간단한 방식은 .predict()/.forward()를 실행하는 것이다. 하지만 더 속도와 TPS를 고민하고 더 좋은 방식이 없을지 생각하다 보면 다음과 같은 질문들이 떠오를 수 있다.Is there something more we can do with our model now that we don’t need to train anymore?Is there something better we can do than calling a high level .predict()/.forward() function?TRT, TRTIS는 학습이 완료된 모델을 inference만 할 때 .. 2024. 6. 18.
딥러닝/AI 모델의 추론 성능을 높이기 위한 방법 딥러닝 모델 최적화는 딥러닝 모델을 개선하고 최적화하여 더 나은 성능, 효율성, 형태 또는 특정 요구 사항을 충족시키는 프로세스를 의미한다. 딥러닝 모델 최적화는 다양한 목표를 달성하기 위해 다양한 기술과 방법을 사용한다.  딥러닝 모델의 성능을 향상시키는 ‘성능 최적화', 모델의 크기를 줄이는 ‘모델 크기 최적화', 모델 추론 속도를 향상시키는 ‘추론 시간 최적화', ‘메모리/에너지 최적화’ 등이 존재한다. 그중에서 ‘모델 크기 최적화'(모델 경량화)와 ‘추론 시간 최적화'(모델 인퍼런스 속도 가속화)에 대해 이야기해보려 한다.  딥러닝 모델은 개발하는 일은 비용과 시간이 많이 소요되지만, 배포한 딥러닝 모델을 사용하는 것 또한 많은 리소스가 소요된다. 때문에 딥러닝 모델을 사용하거나 제공하는 기업들은.. 2024. 6. 18.
AI 시대에서 FPGA 반도체의 역할 1. FPGA (Field-Programmable Gate Array) 개요  FPGA는 프로그램이 가능한 비메모리 반도체다. 중앙처리장치(CPU)나 GPU와 등 주문형반도체(ASIC)와 달리, 칩 내부의 하드웨어를 필요에 따라 재프로그래밍할 수 있다.    완성된 반도체 하드웨어를 변경시키지 않은 상태에서 기능을 업데이트 하는 것은 반도체 안의 프로그램을 업데이트 하는 것이라 볼 수 있다.  FPGA는 프로그램인 소프트웨어뿐 아니라 하드웨어인 칩 자체를 업데이트 가능하게 하는 반도체이다. 그래서, FPGA는 고객 업체에 로직 설계가 이루어지지 않은 상태로 납품된다. FPGA 공급 업체는 고객사의 개발자들이 해당 솔루션을 활용할 수 있도록 프로그래밍을 위한 소프트웨어를 제공하며, 고객 업체들은 이를 받아.. 2024. 6. 16.
AI 반도체에 대해 알아야할 주요 키워드 1. HBM의 중요성 고대역폭 메모리 (HBM)은 2013년 발표된 적층형 메모리 규격으로, 고성능 그래픽스 가속기 및 네트워크 장치와 결합하기 위해 사용되는 고성능 램 (RAM) 인터페이스를 의미한다. AI 반도체 시장이 급성장하면서 HBM 기술이 주류로 자리잡고 있다. AI 반도체의 경우 HBM 등의 메모리 반도체에 기반하여 그 성능이 향상됨으로, 두 시장은 함께 동반 성장하고 있는 추세이다. HBM은 현재 최고급 게임용 그래픽 카드 대부분에 사용되는 GDDR 메모리 대비 훨씬 더 높은 대역폭과 낮은 전력 소비를 제공하여 GDDR 대체 용도로 활용할 수 있다.  HBM 규격은 HBM, HBM2, HBM2E, HBM3로 구분하며, HBM3은 대역폭의 급격한 향상으로 개발이 늦어지고 있어 HBM2E가 대.. 2024. 6. 15.
국내 AI 반도체 선도업체 '리벨리온 - 사피온'의 합병 발표 국내 AI 반도체 스타트업 대표주자인 사피온과 리벨리온이 경쟁력 강화를 위해 합병을 결정했다. 이번 합병 추진은 국내 AI 반도체 기업간 대승적 통합을 통해 글로벌 AI인프라 전쟁에 나설 국가대표 기업을 만들겠다는데 양사가 합의한 결과다.    이를 두고 반도체 업계에서는 “잘한 결정”이라며 긍정적으로 평가하는 분위기다. 국내 AI 반도체기업이 전세계 AI 반도체 시장에서 90% 점유율을 차지하고 있는 엔비디아와 경쟁에서 성과를 낼 수 있을지 우려하고 있는 상황에서, 두 회사가 합병을 통해 기술을 강화하고 덩치가 커지면 승산이 높아지기 때문이다. 김형준 차세대지능형반도체사업 단장은 “양사가 합병을 결정한 것은 잘한 일”이라며 “스타트업인 사피온, 리벨리온은 각자 칩을 개발하고 성과를 내는데 많은 부담이 .. 2024. 6. 13.
Apple의 WWDC 2024 주요 내용 1. 개요 Apple이 1987년 이래로 매년 6월경 캘리포니아 에서 개최하는 대규모 개발자 회의이다. 기조연설에서는 주로 소프트웨어 개발자들을 위한 새로운 소프트웨어와 기술의 발표가 이루어지며, 2009년 이후로는 Macworld에 불참하게 되면서, 해당 연설에서 신제품 발표도 겸하고 있다. 행사기간 동안에 진행되는 프로그램으로는 Apple의 엔지니어들과 함께하는 200여 개의 핸즈온 랩과 다양한 주제에 관해 깊이있는 논의를 나누는 100여 개의 세션 등이 있다. 2019년까지 진행된 오프라인 행사의 경우 6,000명의 개발자들이 초청되었으며, 2020년, 2021년에는 코로나19의 영향으로 온라인으로 개최되며 전세계 애플 개발자 3천만 명 이상이 참여하였고, 2022년 이후로는 온라인 행사에 더불어 .. 2024. 6. 11.