unsloth
-
Qwen3.5-122B 양자화 비교: Q4_K_M vs Unsloth UD-Q3_K_XL 실측IT 2026. 4. 5. 21:00
왜 양자화 방식이 중요한가로컬 LLM을 운용할 때 가장 큰 제약은 GPU 메모리다. 122B 파라미터 MoE 모델인 Qwen3.5-122B-A10B의 BF16 원본은 244GB로, 어떤 단일 GPU에도 올라가지 않는다. 양자화(Quantization)가 필수인 이유다.그런데 같은 "양자화"라도 접근 방식에 따라 결과가 크게 달라진다. Ollama 공식 라이브러리에서 제공하는 Q4_K_M(81GB)은 모든 레이어에 균일하게 4비트를 적용한다. 반면, Unsloth의 UD-Q3_K_XL(54GB)은 Dynamic 양자화 2.0을 적용한다. 어텐션과 라우터 가중치 같은 민감한 레이어는 6~8비트로 유지하고, MoE의 전문가 FFN 가중치(256개 중 8개만 활성화)는 2~3비트로 공격적으로 압축하는 전략이다...