728x90
반응형
https://www.youtube.com/watch?v=NfQrRQmDrcc&list=WL&index=1&t=45s
출처: 테디노트
뜨리스땅
https://tristanchoi.tistory.com/651
AI 모델 추론을 위한 VLLM이란 무엇인가? (feat. by Paged Attention)
1. LLM inference의 특징 chatGPT 이후로 LLM에 대한 연구가 많이 활성화되었고, 그에 따라 최근에는 LLM 서빙을 다루는 경우가 많아지고 있다. 최근 LLM모델이 매우 커짐에 따라 serving비용이 매우 증가하
tristanchoi.tistory.com
728x90
반응형
'인터넷, 통신, 플랫폼, 컨텐츠 산업' 카테고리의 다른 글
글로벌 경영컨설팅 사 Accenture의 흥미로은 최근 행보 (0) | 2024.06.26 |
---|---|
RAG 구현을 위한 효과적인 툴: 랭체인(LangChain) (0) | 2024.06.20 |
AI 모델 추론을 위한 최적화 모델: Triton Server & Tensor RT (0) | 2024.06.18 |
딥러닝/AI 모델의 추론 성능을 높이기 위한 방법 (0) | 2024.06.18 |
NVIDIA Triton 란 무엇인가? (1) | 2024.06.05 |
댓글