서빙엔진1 AI 모델 추론을 위한 VLLM이란 무엇인가? (feat. by Paged Attention) 1. LLM inference의 특징 chatGPT 이후로 LLM에 대한 연구가 많이 활성화되었고, 그에 따라 최근에는 LLM 서빙을 다루는 경우가 많아지고 있다. 최근 LLM모델이 매우 커짐에 따라 serving비용이 매우 증가하고 있다. LLM이 커짐에 따라 parameter도 많아져 비싸진 token 생성 과정을 생성이 끝날때까지 반복해서 하나의 token밖에 생성하지 못한다. 따라서 이러한 생성 과정은 GPU의 연산 능력을 제대로 활용하지 못하고 throughput을 저하시키는 memory-bound과정이다. Throughput을 향상시키기 위해 많은 request를 하나의 batch로 묶어서 할 수 있지만, 이를 위해서는 GPU memory를 효율적으로 관리해야 한다. 위의 그림은 13B의 파라.. 2024. 6. 1. 이전 1 다음