-
6개월 만에 4세대, 智谱AI GLM 모델 패밀리 완전 정리IT 2026. 4. 20. 21:00
2025년 7월부터 2026년 2월까지, 불과 6개월. 중국 AI 기업 智谱AI(Zhipu AI)가 GLM-4.5부터 GLM-5까지 4개 major 버전을 쏟아냈다. OpenAI나 Anthropic이 반년에 한두 개 모델을 내놓는 것과 비교하면 놀라운 속도다. 더 놀라운 건, 이 모델들이 모두 MIT 라이선스 오픈소스라는 점이다.
각 세대별로 핵심 특징과 커뮤니티의 반응을 정리해본다.
GLM-4.5 — 오픈소스 LLM의 이정표 (2025년 7월)
GLM-4.5는 355B total / 32B active parameters의 MoE(Mixture of Experts) 아키텍처를 채택했다. 전체 파라미터는 3,550억 개지만 실제 추론 시에는 320억 개만 활성화되어, 거대 모델의 성능을 경량 모델의 비용으로 쓸 수 있다는 게 핵심이다.
또 하나의 특징은 dual-mode 시스템이다. thinking mode(추론 모드)와 non-thinking mode를 하나의 모델에서 전환할 수 있어, Reasoning·Coding·Agent 기능을 통합적으로 지원한다. 별도의 reasoning 모델을 따로 둘 필요가 없다는 뜻이다.
커뮤니티 반응: 12개 주요 벤치마크 종합 점수에서 글로벌 3위, 오픈소스 1위를 달성하면서 "중국 오픈소스 LLM의 이정표"라는 평가를 받았다. 특히 tool calling 성능이 당시 Claude Opus 4.1을 넘어서면서도, 비용은 1.4%에 불과하다는 점이 개발자 커뮤니티에서 크게 주목받았다.
GLM-4.6 — 멀티모달로 확장 (2025년 9~12월)
GLM-4.6은 context window를 200K 토큰으로 확장하면서 전반적인 벤치마크 성능을 끌어올렸다. 하지만 진짜 주인공은 12월에 나온 GLM-4.6V다.
GLM-4.6V는 128K context의 vision-language 모델로, native multimodal Function Calling이라는 새로운 개념을 도입했다. 이미지나 스크린샷, 문서를 tool parameter로 직접 전달할 수 있다. "이 스크린샷에서 에러 메시지를 찾아서 검색해줘"를 한 번의 호출로 처리할 수 있게 된 것이다. 9B 파라미터의 Flash 경량 버전도 함께 제공되어 모바일이나 엣지 환경에서도 활용할 수 있다.
커뮤니티 반응: 코딩 벤치마크에서 Claude Sonnet 4.5, GPT-5와 비교 가능한 수준이라는 평가를 받았다. 오픈소스 모델이 상용 최상위 모델과 코딩 영역에서 어깨를 나란히 하기 시작한 시점이다.
GLM-4.7 — 개발자를 위한 모델 (2025년 12월)
GLM-4.7은 "실제 개발 워크플로우에 특화된 모델"을 표방하며 등장했다. SWE-bench에서 73.8%(전작 대비 +5.8%)를 달성했고, 수학 추론 벤치마크 AIME 2025에서 95.7점을 기록했다.
가장 흥미로운 특징은 새로운 reasoning 메커니즘이다. Interleaved Thinking(코드 생성 중간중간 추론 삽입), Preserved Thinking(이전 추론 맥락 보존), Turn-level Thinking(대화 턴 단위 추론 제어) 등을 도입해, 복잡한 multi-step 작업에서 안정성을 크게 높였다. 단순히 "더 똑똑해졌다"가 아니라, "추론 방식 자체를 세분화했다"는 점이 기술적으로 의미 있다.
커뮤니티 반응: HLE(Humanity's Last Exam) 벤치마크에서 42.8%를 기록하며 GPT-5.1을 넘어섰다는 결과가 화제가 됐다. 이 시점부터 智谱AI에 "China's OpenAI"라는 수식어가 본격적으로 붙기 시작했다.
GLM-5 — 오픈소스 최강, 그리고 탈(脫)엔비디아 (2026년 2월)
2026년 1월 홍콩 IPO(기업가치 약 $31.3B) 직후 발표된 GLM-5는 현재까지의 집대성이다. 745B total / 44B active parameters, 256개 expert 중 8개만 활성화하는 극도로 sparse한 MoE 구조를 채택했다. 200K context window에 128K max output을 지원한다.
성능도 인상적이다. SWE-bench Verified에서 77.8%로 오픈소스 최고 기록을 세웠다. 참고로 같은 벤치마크에서 Claude Opus 4.6이 80.8%, GPT-5.2가 80.0%이니, 최상위 상용 모델과의 격차가 3% 이내로 좁혀진 셈이다.
그리고 한 가지 더 — 智谱AI는 GLM-5를 Nvidia 하드웨어 없이 훈련했다고 주장했다. 미국의 대중국 반도체 수출 제한이 강화되는 상황에서, 국산 칩만으로 세계 최고 수준의 오픈소스 모델을 만들었다는 메시지는 기술적 의미를 넘어선다.
커뮤니티 반응: LMArena의 Text Arena와 Code Arena 모두에서 오픈소스 1위를 차지했다. 개발자 커뮤니티에서는 "일반적인 코딩 작업은 GLM, 고난도 작업은 Claude"라는 실용적 전략이 공유되고 있다. 월 $3~30 vs $100~200이라는 비용 차이가 이 전략의 배경이다.
벤치마크 한눈에 보기
벤치마크 GLM-4.5 GLM-4.6 GLM-4.7 GLM-5 참고 (상용 모델) SWE-bench Verified — ~68% 73.8% 77.8% Opus 4.6: 80.8% AIME 2025 — — 95.7 — — HLE — ~30% 42.8% — GPT-5.1 이하 LMArena (Code) — — — 오픈소스 1위 Opus 4.6 전체 1위 정리: 왜 주목해야 하는가
智谱AI의 전략은 세 단어로 요약된다. 오픈소스, MoE, Agent/Coding 특화.
MIT 라이선스 오픈소스로 진입 장벽을 낮추고, MoE 아키텍처로 비용 효율성을 확보하면서, 개발자들이 가장 많이 쓰는 코딩과 에이전트 영역에 집중했다. 6개월 만에 4세대를 내놓을 수 있었던 것도, 이 세 가지 축이 흔들리지 않았기 때문이다.
오픈소스 LLM 생태계에서 Meta의 Llama, Alibaba의 Qwen과 함께 3강 구도를 형성한 GLM. 이 속도라면 2026년 하반기에는 상용 모델과의 격차가 사실상 사라질 수도 있다.
이 글은 생성형 AI의 도움을 받아 작성되었습니다. 원본 자료를 기반으로 AI가 초안을 생성하고, 작성자가 검토·편집하였습니다.
'IT' 카테고리의 다른 글
AI 코딩 에이전트의 권한 관리 — 화이트리스트에서 블랙리스트로 전환한 이유 (0) 2026.04.22 코딩 에이전트는 README.md를 읽을까? — 2026년 4월 실측 현황 (0) 2026.04.22 Context Engineering — AI 코딩 에이전트에 맥락을 주입하는 우선순위 체계 (0) 2026.04.22 Claude Code 스킬과 훅 — AI 코딩 도구에 왜 통제 체계가 필요한가 (1) 2026.04.22 텔레그램으로 GitHub 이슈 관리 자동화하기 (1) 2026.04.21 Google One 해지와 클라우드 탈출기 — 구글에 남긴 건 메일과 캘린더뿐 (1) 2026.04.19 Microsoft 365 구독 해지와 AI 마이그레이션 — 556GB를 구출한 일주일 (0) 2026.04.19 ChatGPT 유료 구독 취소 후 달라진 3가지 (0) 2026.04.19 n8n으로 로컬 AI 챗봇 오케스트레이션 이전하기 — 하루 종일 삽질한 실전 기록 (0) 2026.04.18 AI 모델 리더보드, Chatbot Arena 완전 해부 (1) 2026.04.17