AWQ
-
Q4 양자화는 GPU 안에서 어떻게 동작하나 — Blackwell FP8 텐서코어와의 만남IT 2026. 5. 5. 23:30
들어가며 — "Q4는 그럼 어떻게 곱셈을 하지?"직전 글에서 Blackwell이 FP8을 텐서코어로 네이티브 처리한다고 했다. 메모리에서 곧장 곱셈으로, 변환 단계 없이.그렇다면 자연스럽게 떠오르는 의문이 있다. Q4 양자화로 4비트까지 줄이면 어떻게 되는가? 메모리는 분명히 4분의 1로 줄어든다. 그런데 텐서코어가 받아주는 형식은 FP16, BF16, FP8, FP4까지인데, Q4는 거기 안 끼어 있다. 그럼 곱셈은 어떻게 되는가?답을 먼저 말하면, Q4는 메모리에는 4비트로 압축돼 있지만 GPU 안에서 곱셈 직전에 FP16(또는 FP8)으로 풀어준 뒤 텐서코어에 태운다. 압축 zip 파일을 디스크에 두고, 처리할 때만 풀어 읽는 것과 똑같다. 이 글은 그 흐름을 비유와 다이어그램으로 풀어쓴다.1. Q..