LLM을 어떻게 훈련시키냐만큼 중요한 것이 LLM을 어떻게 서비스하냐입니다. 얼마나 효율적으로 출력을 만들어 낼 수 있느냐는 Throughput으로 이어지고 결국 비용과 직결됩니다.초당 100개의 요청을 처리하고 싶은데, 실제로는 초당 10개만 처리할 수 있다면 어떻게 해야 할까요? 서버를 10대를 사용하면 됩니다. 그런데 누군가 소프트웨어를 개선해서 초당 20개로 처리할 수 있게 만들었다면 서버를 5개로 줄일 수 있습니다. 비용이 절반으로 줄어든 겁니다.실제로 LLM 훈련에 드는 비용보다 LLM 서비스에 드는 비용이 훨씬 크다고 합니다. 훈련은 비싸지만 한 번으로 끝인 반면, Inference는 지속적으로 나가고 사용자가 늘수록 늘어나는 비용이기 때문입니다.이런 이유 때문에 LLM Inference를 ..