ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 6개월 만에 4세대, 智谱AI GLM 모델 패밀리 완전 정리
    IT 2026. 4. 20. 21:00
    6개월 만에 4세대, 智谱AI GLM 모델 패밀리 완전 정리

    2025년 7월부터 2026년 2월까지, 불과 6개월. 중국 AI 기업 智谱AI(Zhipu AI)가 GLM-4.5부터 GLM-5까지 4개 major 버전을 쏟아냈다. OpenAI나 Anthropic이 반년에 한두 개 모델을 내놓는 것과 비교하면 놀라운 속도다. 더 놀라운 건, 이 모델들이 모두 MIT 라이선스 오픈소스라는 점이다.

    각 세대별로 핵심 특징과 커뮤니티의 반응을 정리해본다.

    GLM-4.5 — 오픈소스 LLM의 이정표 (2025년 7월)

    GLM-4.5는 355B total / 32B active parameters의 MoE(Mixture of Experts) 아키텍처를 채택했다. 전체 파라미터는 3,550억 개지만 실제 추론 시에는 320억 개만 활성화되어, 거대 모델의 성능을 경량 모델의 비용으로 쓸 수 있다는 게 핵심이다.

    또 하나의 특징은 dual-mode 시스템이다. thinking mode(추론 모드)와 non-thinking mode를 하나의 모델에서 전환할 수 있어, Reasoning·Coding·Agent 기능을 통합적으로 지원한다. 별도의 reasoning 모델을 따로 둘 필요가 없다는 뜻이다.

    커뮤니티 반응: 12개 주요 벤치마크 종합 점수에서 글로벌 3위, 오픈소스 1위를 달성하면서 "중국 오픈소스 LLM의 이정표"라는 평가를 받았다. 특히 tool calling 성능이 당시 Claude Opus 4.1을 넘어서면서도, 비용은 1.4%에 불과하다는 점이 개발자 커뮤니티에서 크게 주목받았다.

    GLM-4.6 — 멀티모달로 확장 (2025년 9~12월)

    GLM-4.6은 context window를 200K 토큰으로 확장하면서 전반적인 벤치마크 성능을 끌어올렸다. 하지만 진짜 주인공은 12월에 나온 GLM-4.6V다.

    GLM-4.6V는 128K context의 vision-language 모델로, native multimodal Function Calling이라는 새로운 개념을 도입했다. 이미지나 스크린샷, 문서를 tool parameter로 직접 전달할 수 있다. "이 스크린샷에서 에러 메시지를 찾아서 검색해줘"를 한 번의 호출로 처리할 수 있게 된 것이다. 9B 파라미터의 Flash 경량 버전도 함께 제공되어 모바일이나 엣지 환경에서도 활용할 수 있다.

    커뮤니티 반응: 코딩 벤치마크에서 Claude Sonnet 4.5, GPT-5와 비교 가능한 수준이라는 평가를 받았다. 오픈소스 모델이 상용 최상위 모델과 코딩 영역에서 어깨를 나란히 하기 시작한 시점이다.

    GLM-4.7 — 개발자를 위한 모델 (2025년 12월)

    GLM-4.7은 "실제 개발 워크플로우에 특화된 모델"을 표방하며 등장했다. SWE-bench에서 73.8%(전작 대비 +5.8%)를 달성했고, 수학 추론 벤치마크 AIME 2025에서 95.7점을 기록했다.

    가장 흥미로운 특징은 새로운 reasoning 메커니즘이다. Interleaved Thinking(코드 생성 중간중간 추론 삽입), Preserved Thinking(이전 추론 맥락 보존), Turn-level Thinking(대화 턴 단위 추론 제어) 등을 도입해, 복잡한 multi-step 작업에서 안정성을 크게 높였다. 단순히 "더 똑똑해졌다"가 아니라, "추론 방식 자체를 세분화했다"는 점이 기술적으로 의미 있다.

    커뮤니티 반응: HLE(Humanity's Last Exam) 벤치마크에서 42.8%를 기록하며 GPT-5.1을 넘어섰다는 결과가 화제가 됐다. 이 시점부터 智谱AI에 "China's OpenAI"라는 수식어가 본격적으로 붙기 시작했다.

    GLM-5 — 오픈소스 최강, 그리고 탈(脫)엔비디아 (2026년 2월)

    2026년 1월 홍콩 IPO(기업가치 약 $31.3B) 직후 발표된 GLM-5는 현재까지의 집대성이다. 745B total / 44B active parameters, 256개 expert 중 8개만 활성화하는 극도로 sparse한 MoE 구조를 채택했다. 200K context window에 128K max output을 지원한다.

    성능도 인상적이다. SWE-bench Verified에서 77.8%로 오픈소스 최고 기록을 세웠다. 참고로 같은 벤치마크에서 Claude Opus 4.6이 80.8%, GPT-5.2가 80.0%이니, 최상위 상용 모델과의 격차가 3% 이내로 좁혀진 셈이다.

    그리고 한 가지 더 — 智谱AI는 GLM-5를 Nvidia 하드웨어 없이 훈련했다고 주장했다. 미국의 대중국 반도체 수출 제한이 강화되는 상황에서, 국산 칩만으로 세계 최고 수준의 오픈소스 모델을 만들었다는 메시지는 기술적 의미를 넘어선다.

    커뮤니티 반응: LMArena의 Text Arena와 Code Arena 모두에서 오픈소스 1위를 차지했다. 개발자 커뮤니티에서는 "일반적인 코딩 작업은 GLM, 고난도 작업은 Claude"라는 실용적 전략이 공유되고 있다. 월 $3~30 vs $100~200이라는 비용 차이가 이 전략의 배경이다.

    벤치마크 한눈에 보기

    벤치마크 GLM-4.5 GLM-4.6 GLM-4.7 GLM-5 참고 (상용 모델)
    SWE-bench Verified ~68% 73.8% 77.8% Opus 4.6: 80.8%
    AIME 2025 95.7
    HLE ~30% 42.8% GPT-5.1 이하
    LMArena (Code) 오픈소스 1위 Opus 4.6 전체 1위

    정리: 왜 주목해야 하는가

    智谱AI의 전략은 세 단어로 요약된다. 오픈소스, MoE, Agent/Coding 특화.

    MIT 라이선스 오픈소스로 진입 장벽을 낮추고, MoE 아키텍처로 비용 효율성을 확보하면서, 개발자들이 가장 많이 쓰는 코딩과 에이전트 영역에 집중했다. 6개월 만에 4세대를 내놓을 수 있었던 것도, 이 세 가지 축이 흔들리지 않았기 때문이다.

    오픈소스 LLM 생태계에서 Meta의 Llama, Alibaba의 Qwen과 함께 3강 구도를 형성한 GLM. 이 속도라면 2026년 하반기에는 상용 모델과의 격차가 사실상 사라질 수도 있다.


    이 글은 생성형 AI의 도움을 받아 작성되었습니다. 원본 자료를 기반으로 AI가 초안을 생성하고, 작성자가 검토·편집하였습니다.

Designed by Tistory.