서빙1 NVIDIA Triton 란 무엇인가? NVIDIA Triton 란 무엇인가?인공지능 모델은 딥러닝의 발전으로 점점 커지고 성능도 향상되고 있다. 하지만 그만큼 추론 속도는 느려지고 많은 리소스가 필요하다. 더 좋은 GPU 를 사용하면 효과를 볼 수 있지만 많은 비용이 들기 때문에 어떻게 인공지능 모델을 효율적으로 운영할 수 있는지 연구가 계속 되고 있다. 비용을 줄이기 위한 방법으로는 모델 경량화와 같이 인공지능 모델의 크기를 줄이는 방법부터 효율적인 추론을 위한 ONNX, TensorRT 변환 등 다양한 방법이 있다. ONNX, TensorRT 변환의 경우, 변환된 engine(=모델) 을 서빙하기 위해서는 별도의 코드 작성이 필요하다. 이때 리소스를 더 절약하는 방법을 사용하기 위해서는 C++ 로 코드를 작성해야 한다. (사실 pytho.. 2024. 6. 5. 이전 1 다음