홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (483)
- IT (483)
  - Tizen (114)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

아프니까 개발자다 아프니까 개발자다

컨텐츠 검색 블로그 내 검색

unsloth

Qwen3.5-122B 양자화 비교: Q4_K_M vs Unsloth UD-Q3_K_XL 실측
IT 2026. 4. 5. 21:00

왜 양자화 방식이 중요한가로컬 LLM을 운용할 때 가장 큰 제약은 GPU 메모리다. 122B 파라미터 MoE 모델인 Qwen3.5-122B-A10B의 BF16 원본은 244GB로, 어떤 단일 GPU에도 올라가지 않는다. 양자화(Quantization)가 필수인 이유다.그런데 같은 "양자화"라도 접근 방식에 따라 결과가 크게 달라진다. Ollama 공식 라이브러리에서 제공하는 Q4_K_M(81GB)은 모든 레이어에 균일하게 4비트를 적용한다. 반면, Unsloth의 UD-Q3_K_XL(54GB)은 Dynamic 양자화 2.0을 적용한다. 어텐션과 라우터 가중치 같은 민감한 레이어는 6~8비트로 유지하고, MoE의 전문가 FFN 가중치(256개 중 8개만 활성화)는 2~3비트로 공격적으로 압축하는 전략이다...

이전

1

다음

인기포스트

ABOUT ME

http://facebook.com/theojini

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바