KV Cache
-
KV cache FP8로 동시 요청 76배 수용하기 — LLM 메모리의 숨은 주범 정리IT 2026. 5. 6. 22:00
들어가며 — vLLM에 한 줄 옵션을 더했더니vLLM 시작 명령에 옵션 한 줄을 추가했다.--kv-cache-dtype fp8그 결과 같은 GPU(DGX Spark 80GB)에서 32K 컨텍스트 기준 동시 요청 수용 능력이 76배로 뛰었다. 한 사람이 30K 컨텍스트로 채팅 한 건 돌리는 동안에도, 같은 GPU 위에서 76개 동시 슬롯이 여유롭다."한 줄 옵션이 76배?" 의심스러운 숫자다. 하지만 KV cache가 LLM 메모리에서 차지하는 비중을 알면 이상한 일이 아니다. 이 글은 KV cache가 무엇이고, 왜 이렇게 폭발적으로 메모리를 잡아먹으며, FP8로 옮기면 무엇이 달라지는지를 풀어쓴다.1. KV cache가 도대체 무엇인가LLM은 토큰을 한 번에 하나씩 생성한다. 매 토큰마다 attenti..