inference2 NVIDIA Triton 란 무엇인가? NVIDIA Triton 란 무엇인가?인공지능 모델은 딥러닝의 발전으로 점점 커지고 성능도 향상되고 있다. 하지만 그만큼 추론 속도는 느려지고 많은 리소스가 필요하다. 더 좋은 GPU 를 사용하면 효과를 볼 수 있지만 많은 비용이 들기 때문에 어떻게 인공지능 모델을 효율적으로 운영할 수 있는지 연구가 계속 되고 있다. 비용을 줄이기 위한 방법으로는 모델 경량화와 같이 인공지능 모델의 크기를 줄이는 방법부터 효율적인 추론을 위한 ONNX, TensorRT 변환 등 다양한 방법이 있다. ONNX, TensorRT 변환의 경우, 변환된 engine(=모델) 을 서빙하기 위해서는 별도의 코드 작성이 필요하다. 이때 리소스를 더 절약하는 방법을 사용하기 위해서는 C++ 로 코드를 작성해야 한다. (사실 pytho.. 2024. 6. 5. AI 모델 추론을 위한 VLLM이란 무엇인가? (feat. by Paged Attention) 1. LLM inference의 특징 chatGPT 이후로 LLM에 대한 연구가 많이 활성화되었고, 그에 따라 최근에는 LLM 서빙을 다루는 경우가 많아지고 있다. 최근 LLM모델이 매우 커짐에 따라 serving비용이 매우 증가하고 있다. LLM이 커짐에 따라 parameter도 많아져 비싸진 token 생성 과정을 생성이 끝날때까지 반복해서 하나의 token밖에 생성하지 못한다. 따라서 이러한 생성 과정은 GPU의 연산 능력을 제대로 활용하지 못하고 throughput을 저하시키는 memory-bound과정이다. Throughput을 향상시키기 위해 많은 request를 하나의 batch로 묶어서 할 수 있지만, 이를 위해서는 GPU memory를 효율적으로 관리해야 한다. 위의 그림은 13B의 파라.. 2024. 6. 1. 이전 1 다음