둔진의 소프트웨어 이야기

  • 홈
  • 태그

speculativedecoding 1

LLM : Inference를 빠르게 하자 (GQA, SWA, KV Cache, Flash Attention, Speculative Decoding)

LLM을 어떻게 훈련시키냐만큼 중요한 것이 LLM을 어떻게 서비스하냐입니다. 얼마나 효율적으로 출력을 만들어 낼 수 있느냐는 Throughput으로 이어지고 결국 비용과 직결됩니다.초당 100개의 요청을 처리하고 싶은데, 실제로는 초당 10개만 처리할 수 있다면 어떻게 해야 할까요? 서버를 10대를 사용하면 됩니다. 그런데 누군가 소프트웨어를 개선해서 초당 20개로 처리할 수 있게 만들었다면 서버를 5개로 줄일 수 있습니다. 비용이 절반으로 줄어든 겁니다.실제로 LLM 훈련에 드는 비용보다 LLM 서비스에 드는 비용이 훨씬 크다고 합니다. 훈련은 비싸지만 한 번으로 끝인 반면, Inference는 지속적으로 나가고 사용자가 늘수록 늘어나는 비용이기 때문입니다.이런 이유 때문에 LLM Inference를 ..

Deep Learning 2025.01.21
이전
1
다음
더보기
프로필사진

둔진의 소프트웨어 이야기

자연어처리, 인공지능, 파이썬, 소프트웨어 개발 이야기를 다룹니다.

  • 분류 전체보기
    • Python
    • Linux
    • Deep Learning
    • IT 이야기

Tag

Deep Learning, LLM, sys.path, 자연어처리, keras, ChatGPT, Linux, Foundation Model, Large Language Model, DEEPLEARNING, fasttext, transformer, GPT, word vector, Python, pytorch, 파이썬, tensorflow, word embedding, NLP,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바