fp8
-
KV cache FP8로 동시 요청 76배 수용하기 — LLM 메모리의 숨은 주범 정리IT 2026. 5. 6. 22:00
들어가며 — vLLM에 한 줄 옵션을 더했더니vLLM 시작 명령에 옵션 한 줄을 추가했다.--kv-cache-dtype fp8그 결과 같은 GPU(DGX Spark 80GB)에서 32K 컨텍스트 기준 동시 요청 수용 능력이 76배로 뛰었다. 한 사람이 30K 컨텍스트로 채팅 한 건 돌리는 동안에도, 같은 GPU 위에서 76개 동시 슬롯이 여유롭다."한 줄 옵션이 76배?" 의심스러운 숫자다. 하지만 KV cache가 LLM 메모리에서 차지하는 비중을 알면 이상한 일이 아니다. 이 글은 KV cache가 무엇이고, 왜 이렇게 폭발적으로 메모리를 잡아먹으며, FP8로 옮기면 무엇이 달라지는지를 풀어쓴다.1. KV cache가 도대체 무엇인가LLM은 토큰을 한 번에 하나씩 생성한다. 매 토큰마다 attenti..
-
Ollama에서 vLLM으로 백엔드를 바꿨더니 throughput이 148% 올랐다 — 같은 모델, 다른 엔진IT 2026. 5. 6. 21:30
들어가며 — 같은 가중치, 같은 GPU, 다른 결과같은 Qwen3.6 모델을 같은 DGX Spark에서 돌렸다. 한쪽은 Ollama Q4_K_M GGUF, 다른 쪽은 vLLM FP8. 측정 결과:측정Ollama Q4vLLM FP8변화짧은 prompt TTFT251 ms101 ms−60%긴 prompt(4K) TTFT1186 ms493 ms−58%단일 디코드60 tok/s65 tok/s+8%동시 4요청 throughput27 tok/s67 tok/s+148%"같은 모델인데 왜?" — 답을 깔끔하게 정리하기 위해 이 글을 쓴다. 차이는 두 엔진이 GPU 위에서 완전히 다른 일을 하고 있기 때문이다. 핵심은 세 가지: 가중치 형식, attention 메모리 관리, 동시 요청 처리 방식.1. 두 엔진의 처리 흐..
-
Q4 양자화는 GPU 안에서 어떻게 동작하나 — Blackwell FP8 텐서코어와의 만남IT 2026. 5. 5. 23:30
들어가며 — "Q4는 그럼 어떻게 곱셈을 하지?"직전 글에서 Blackwell이 FP8을 텐서코어로 네이티브 처리한다고 했다. 메모리에서 곧장 곱셈으로, 변환 단계 없이.그렇다면 자연스럽게 떠오르는 의문이 있다. Q4 양자화로 4비트까지 줄이면 어떻게 되는가? 메모리는 분명히 4분의 1로 줄어든다. 그런데 텐서코어가 받아주는 형식은 FP16, BF16, FP8, FP4까지인데, Q4는 거기 안 끼어 있다. 그럼 곱셈은 어떻게 되는가?답을 먼저 말하면, Q4는 메모리에는 4비트로 압축돼 있지만 GPU 안에서 곱셈 직전에 FP16(또는 FP8)으로 풀어준 뒤 텐서코어에 태운다. 압축 zip 파일을 디스크에 두고, 처리할 때만 풀어 읽는 것과 똑같다. 이 글은 그 흐름을 비유와 다이어그램으로 풀어쓴다.1. Q..
-
FP8이 왜 FP16보다 45% 빠를까 — Blackwell GPU의 '텐서코어 네이티브 처리' 이해하기IT 2026. 5. 5. 23:00
들어가며 — "FP8이 빠르다"는 말의 진짜 의미로컬 LLM을 직접 돌려본 사람이라면 한 번쯤 이런 문장을 봤을 것이다."같은 모델을 FP8 체크포인트로 돌리면 디코드 속도가 +45% 빨라진다. Blackwell GPU는 FP8을 텐서코어가 네이티브로 처리하기 때문이다."여기에 모르는 단어가 세 개나 들어 있다. FP8이 뭔지, 텐서코어가 뭔지, "네이티브로 처리한다"가 무슨 뜻인지. 그리고 이 셋이 어떻게 합쳐져서 정확히 45%라는 숫자를 만들어내는지.이 글은 그 세 개념을 차근차근 풀어, 마지막에 "그래서 왜 빨라지는가"를 한눈에 보이게 만드는 게 목표다. 비유 위주로 가되, 마지막엔 실제 수치까지 맞춘다.1. FP16, FP8이 도대체 뭔가 — '숫자를 표현하는 정밀도'컴퓨터가 실수(소수점이 있는 ..