2025/01 2

LLM : Inference를 빠르게 하자 (GQA, SWA, KV Cache, Flash Attention, Speculative Decoding)

LLM을 어떻게 훈련시키냐만큼 중요한 것이 LLM을 어떻게 서비스하냐입니다. 얼마나 효율적으로 출력을 만들어 낼 수 있느냐는 Throughput으로 이어지고 결국 비용과 직결됩니다.초당 100개의 요청을 처리하고 싶은데, 실제로는 초당 10개만 처리할 수 있다면 어떻게 해야 할까요? 서버를 10대를 사용하면 됩니다. 그런데 누군가 소프트웨어를 개선해서 초당 20개로 처리할 수 있게 만들었다면 서버를 5개로 줄일 수 있습니다. 비용이 절반으로 줄어든 겁니다.실제로 LLM 훈련에 드는 비용보다 LLM 서비스에 드는 비용이 훨씬 크다고 합니다. 훈련은 비싸지만 한 번으로 끝인 반면, Inference는 지속적으로 나가고 사용자가 늘수록 늘어나는 비용이기 때문입니다.이런 이유 때문에 LLM Inference를 ..

Deep Learning 2025.01.21

pip 는 어떻게 작동할까?

poetry나 uv 같은 새로운 툴들이 나왔지만 파이썬 패키지 관리의 대세는 아직 pip입니다. 파이썬 패키지를 설치하고 싶으면 당연하게 pip install 라고 치죠. 인터넷에서 를 다운로드해서 설치해 주고, 종속성이 있는 패키지가 있다면 같이 설치해 주는 아주 편리한 툴입니다.그런데 가만 생각해보면 패키지를 다운로드하여 설치한다는 동작이 그리 단순히지 않습니다. 사용자 마다 쓰고 있는 파이썬 버전이 다르고, OS도 다르고, 하드웨어도 다르기 때문입니다. 패키지가 C 코드를 가지고 있다면 OS나 하드웨어를 따져야 하고, 순수 파이썬 코드라고 하더라도 파이썬 버전을 따져보아야 합니다.오늘은 pip가 실제로 어떻게 이 모든 문제를 해결하고 패키지를 다운로드하여 설치하는지 알아보려고 합니다.pip inst..

Python 2025.01.19