본문 바로가기

인터넷, 통신, 플랫폼, 컨텐츠 산업28

글로벌 경영컨설팅 사 Accenture의 흥미로은 최근 행보 과거 미국의 가장 큰 회계 법인이었던 Arthur Andersen이라는 회사가 있었다. 80년대 부터 회계 법인들은 수익성 확대를 위해 경영컨설팅 분야에 사업을 확대하기 시작하였고, 경영컨설팅은 기존에 회계법인이 주로 하던 회계감사나 재무 컨설팅에 비해 큰 이익을 창출하는 사업이 되었다.  결국, 1989년에 Arthur Andersen은 Anersen Consulting이라는 자회사를 만들어서 컨설팅 사업을 분리하였고,  Andersen Worldwide Société Coopérative라는 느슨한 협의체의 별도 회사로 각자 운영하는 형태로 구조를 변경하였다. 그러나 그 이후에도 90년도에 계속 양사간에는 업무범위 침해 및 수익 배분에 대한 여러가지 분쟁과 소송이 이어졌고, 2000년 8월에 국제상업.. 2024. 6. 26.
RAG 구현을 위한 효과적인 툴: 랭체인(LangChain) 랭체인(LangChain)은 노출하여 대규모 언어 모델과 애플리케이션의 통합을 간소화하는 SDK이다. 대규모 언어 모델의 부상과 함께 중요성이 커지고 있다. 대규모 언어 모델에 대한 최신 트렌드를 쫓는 소프트웨어 개발자라면 연일 쏟아지는 소식이 당황스러울 수 있다. 새로운 오픈소스 모델의 출시나 상용 모델 제공업체의 중요한 새 기능 발표가 매일 등장하는 상황과 비슷하다고 할 수 있다.어느덧 LLM은 최신 소프트웨어 스택의 한 요소로 빠르게 부상했다. 그러나 오픈AI와 같은 공급업체가 제공하는 모델 API를 사용하든, 오픈소스 모델을 앱에 포함하든 LLM 기반 애플리케이션을 구축하려면 단순히 프롬프트를 보내고 응답을 기다리는 것 이상의 작업이 필요하다. 매개변수 조정부터 프롬프트 보강, 응답 조정에 이르기.. 2024. 6. 20.
LLM의 추론 성능 향상을 위한 RAG 사용 시, 알아두어야 할 것들 https://www.youtube.com/watch?v=NfQrRQmDrcc&list=WL&index=1&t=45s  출처: 테디노트 뜨리스땅  https://tristanchoi.tistory.com/651 AI 모델 추론을 위한 VLLM이란 무엇인가? (feat. by Paged Attention)1. LLM inference의 특징 chatGPT 이후로 LLM에 대한 연구가 많이 활성화되었고, 그에 따라 최근에는 LLM 서빙을 다루는 경우가 많아지고 있다. 최근 LLM모델이 매우 커짐에 따라 serving비용이 매우 증가하tristanchoi.tistory.com 2024. 6. 20.
AI 모델 추론을 위한 최적화 모델: Triton Server & Tensor RT AI모델에 대한 학습이 끝난 이후, 실제 production 환경에서 모델을 서빙할 때 필요한 부분들은 학습할 때와는 다르다. 가장 간단한 방식은 .predict()/.forward()를 실행하는 것이다. 하지만 더 속도와 TPS를 고민하고 더 좋은 방식이 없을지 생각하다 보면 다음과 같은 질문들이 떠오를 수 있다.Is there something more we can do with our model now that we don’t need to train anymore?Is there something better we can do than calling a high level .predict()/.forward() function?TRT, TRTIS는 학습이 완료된 모델을 inference만 할 때 .. 2024. 6. 18.
딥러닝/AI 모델의 추론 성능을 높이기 위한 방법 딥러닝 모델 최적화는 딥러닝 모델을 개선하고 최적화하여 더 나은 성능, 효율성, 형태 또는 특정 요구 사항을 충족시키는 프로세스를 의미한다. 딥러닝 모델 최적화는 다양한 목표를 달성하기 위해 다양한 기술과 방법을 사용한다.  딥러닝 모델의 성능을 향상시키는 ‘성능 최적화', 모델의 크기를 줄이는 ‘모델 크기 최적화', 모델 추론 속도를 향상시키는 ‘추론 시간 최적화', ‘메모리/에너지 최적화’ 등이 존재한다. 그중에서 ‘모델 크기 최적화'(모델 경량화)와 ‘추론 시간 최적화'(모델 인퍼런스 속도 가속화)에 대해 이야기해보려 한다.  딥러닝 모델은 개발하는 일은 비용과 시간이 많이 소요되지만, 배포한 딥러닝 모델을 사용하는 것 또한 많은 리소스가 소요된다. 때문에 딥러닝 모델을 사용하거나 제공하는 기업들은.. 2024. 6. 18.
NVIDIA Triton 란 무엇인가? NVIDIA Triton 란 무엇인가?인공지능 모델은 딥러닝의 발전으로 점점 커지고 성능도 향상되고 있다. 하지만 그만큼 추론 속도는 느려지고 많은 리소스가 필요하다. 더 좋은 GPU 를 사용하면 효과를 볼 수 있지만 많은 비용이 들기 때문에 어떻게 인공지능 모델을 효율적으로 운영할 수 있는지 연구가 계속 되고 있다. 비용을 줄이기 위한 방법으로는 모델 경량화와 같이 인공지능 모델의 크기를 줄이는 방법부터 효율적인 추론을 위한 ONNX, TensorRT 변환 등 다양한 방법이 있다. ONNX, TensorRT 변환의 경우, 변환된 engine(=모델) 을 서빙하기 위해서는 별도의 코드 작성이 필요하다. 이때 리소스를 더 절약하는 방법을 사용하기 위해서는 C++ 로 코드를 작성해야 한다. (사실 pytho.. 2024. 6. 5.