홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (483)
- IT (483)
  - Tizen (114)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

아프니까 개발자다 아프니까 개발자다

컨텐츠 검색 블로그 내 검색

KV Cache

KV cache FP8로 동시 요청 76배 수용하기 — LLM 메모리의 숨은 주범 정리
IT 2026. 5. 6. 22:00

들어가며 — vLLM에 한 줄 옵션을 더했더니vLLM 시작 명령에 옵션 한 줄을 추가했다.--kv-cache-dtype fp8그 결과 같은 GPU(DGX Spark 80GB)에서 32K 컨텍스트 기준 동시 요청 수용 능력이 76배로 뛰었다. 한 사람이 30K 컨텍스트로 채팅 한 건 돌리는 동안에도, 같은 GPU 위에서 76개 동시 슬롯이 여유롭다."한 줄 옵션이 76배?" 의심스러운 숫자다. 하지만 KV cache가 LLM 메모리에서 차지하는 비중을 알면 이상한 일이 아니다. 이 글은 KV cache가 무엇이고, 왜 이렇게 폭발적으로 메모리를 잡아먹으며, FP8로 옮기면 무엇이 달라지는지를 풀어쓴다.1. KV cache가 도대체 무엇인가LLM은 토큰을 한 번에 하나씩 생성한다. 매 토큰마다 attenti..

이전

1

다음

인기포스트

ABOUT ME

http://facebook.com/theojini

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바