본문 바로가기

triton server3

AI 모델 추론을 위한 최적화 모델: Triton Server & Tensor RT AI모델에 대한 학습이 끝난 이후, 실제 production 환경에서 모델을 서빙할 때 필요한 부분들은 학습할 때와는 다르다. 가장 간단한 방식은 .predict()/.forward()를 실행하는 것이다. 하지만 더 속도와 TPS를 고민하고 더 좋은 방식이 없을지 생각하다 보면 다음과 같은 질문들이 떠오를 수 있다.Is there something more we can do with our model now that we don’t need to train anymore?Is there something better we can do than calling a high level .predict()/.forward() function?TRT, TRTIS는 학습이 완료된 모델을 inference만 할 때 .. 2024. 6. 18.
딥러닝/AI 모델의 추론 성능을 높이기 위한 방법 딥러닝 모델 최적화는 딥러닝 모델을 개선하고 최적화하여 더 나은 성능, 효율성, 형태 또는 특정 요구 사항을 충족시키는 프로세스를 의미한다. 딥러닝 모델 최적화는 다양한 목표를 달성하기 위해 다양한 기술과 방법을 사용한다.  딥러닝 모델의 성능을 향상시키는 ‘성능 최적화', 모델의 크기를 줄이는 ‘모델 크기 최적화', 모델 추론 속도를 향상시키는 ‘추론 시간 최적화', ‘메모리/에너지 최적화’ 등이 존재한다. 그중에서 ‘모델 크기 최적화'(모델 경량화)와 ‘추론 시간 최적화'(모델 인퍼런스 속도 가속화)에 대해 이야기해보려 한다.  딥러닝 모델은 개발하는 일은 비용과 시간이 많이 소요되지만, 배포한 딥러닝 모델을 사용하는 것 또한 많은 리소스가 소요된다. 때문에 딥러닝 모델을 사용하거나 제공하는 기업들은.. 2024. 6. 18.
NVIDIA Triton 란 무엇인가? NVIDIA Triton 란 무엇인가?인공지능 모델은 딥러닝의 발전으로 점점 커지고 성능도 향상되고 있다. 하지만 그만큼 추론 속도는 느려지고 많은 리소스가 필요하다. 더 좋은 GPU 를 사용하면 효과를 볼 수 있지만 많은 비용이 들기 때문에 어떻게 인공지능 모델을 효율적으로 운영할 수 있는지 연구가 계속 되고 있다. 비용을 줄이기 위한 방법으로는 모델 경량화와 같이 인공지능 모델의 크기를 줄이는 방법부터 효율적인 추론을 위한 ONNX, TensorRT 변환 등 다양한 방법이 있다. ONNX, TensorRT 변환의 경우, 변환된 engine(=모델) 을 서빙하기 위해서는 별도의 코드 작성이 필요하다. 이때 리소스를 더 절약하는 방법을 사용하기 위해서는 C++ 로 코드를 작성해야 한다. (사실 pytho.. 2024. 6. 5.