moe
-
Gemma 4에서 Qwen 3.6으로 갈아탔다 — 두 모델을 모든 지표로 비교한 기록IT 2026. 5. 6. 21:00
한 달 만에 다시 갈아탔다지난달 초에 "Gemma 4 로컬 AI 스택 완전 정복"이라는 글을 올렸다. Google DeepMind가 내놓은 Gemma 4를 개인 로컬 AI 서버에 본격 배포하면서 쓴 일종의 도입 후기였다. 그때부터 챗봇·문서 정리·사진 캡션 생성·내러티브 작성 등 6~7개 개인 서비스가 모두 Gemma 4 26B를 백엔드로 쓰고 있었다.그런데 4월 중순에 Alibaba가 Qwen 3.6-35B-A3B를 공개했다. 벤치마크가 묘하게 흥미로워 보였다. 마침 새로 깐 코딩 에이전트(opencode)에 붙일 모델을 고르다가 Qwen을 시험 삼아 돌려봤는데, 한 번 비교해 보고 싶다는 생각이 들었다.결과적으로 모든 서비스를 Qwen 3.6으로 갈아탔다. 그 의사결정에 쓴 비교표·실측 데이터와, "..
-
6개월 만에 4세대, 智谱AI GLM 모델 패밀리 완전 정리IT 2026. 4. 20. 21:00
2025년 7월부터 2026년 2월까지, 불과 6개월. 중국 AI 기업 智谱AI(Zhipu AI)가 GLM-4.5부터 GLM-5까지 4개 major 버전을 쏟아냈다. OpenAI나 Anthropic이 반년에 한두 개 모델을 내놓는 것과 비교하면 놀라운 속도다. 더 놀라운 건, 이 모델들이 모두 MIT 라이선스 오픈소스라는 점이다.각 세대별로 핵심 특징과 커뮤니티의 반응을 정리해본다.GLM-4.5 — 오픈소스 LLM의 이정표 (2025년 7월)GLM-4.5는 355B total / 32B active parameters의 MoE(Mixture of Experts) 아키텍처를 채택했다. 전체 파라미터는 3,550억 개지만 실제 추론 시에는 320억 개만 활성화되어, 거대 모델의 성능을 경량 모델의 비용으로 ..
-
Gemma 4 로컬 AI 스택 완전 정복 — DGX Spark에서 돌려본 솔직한 후기IT 2026. 4. 13. 22:00
왜 Gemma 4인가2026년 4월 2일, Google DeepMind가 Gemma 4를 공개했다. Gemini의 경량 파생 모델로 시작한 Gemma 시리즈가 4세대에 이르러 Apache 2.0 라이선스로 전환하면서, 이름 그대로 "보석"(라틴어 gemma)이 될 조건을 갖추었다.개인 로컬 AI 서버(DGX Spark)에서 여러 오픈 모델을 돌려보고 있는데, Gemma 4가 나온 김에 환경 전체를 정리해 보려 한다. 어떤 스택으로 돌리고 있고, Gemma 4가 실제로 어떤 모델인지, 그리고 써본 솔직한 느낌까지.Gemma 시리즈의 진화Gemma가 어떻게 여기까지 왔는지 간략히 되짚어 보자.버전출시일모델 크기컨텍스트핵심 변화Gemma 12024-022B, 7B8KGemini 경량 버전, 텍스트 전용Gemm..
-
왜 MoE 아키텍처가 등장했나? - Trinity 모델 툴콜링 이슈와 경영학 수업에서 얻은 통찰IT 2026. 3. 15. 23:00
도입: Trinity 모델의 툴콜링 한계최근 OpenRouter에서 무료로 제공되는 Trinity 모델을 사용하면서 흥미로운 현상을 발견했습니다. 이 모델은 복잡한 추론에는 꽤 강한데, 툴콜링(API나 스크립트 호출)이 제대로 동작하지 않는 경우가 종종 발생합니다. 원인을 찾아보니 이 모델은 Mixture of Experts(MoE) 아키텍처를 사용하며, 추론 시 전체 파라미터 중 일부 전문가(Expert)만 활성화된다는 사실을 알게 되었습니다.그렇다면 왜 MoE 같은 아키텍처가 등장하게 되었을까요? 그리고 이 설계 선택은 어떤 trade-off를 내포하고 있을까요? 여기에 경영학 수업의 프로세스 경영 부분에서 배운 통찰을 연결해보고자 합니다.MoE 아키텍처의 핵심 아이디어MoE는 "전문가들의 혼합"입니..