Vision
-
로컬 챗봇 시리즈 #4 — Vision 32B에서 7B로, 그리고 포기까지 — 두 vLLM 동거 시행착오IT 2026. 5. 8. 22:30
들어가며 — "이미지도 보내야지"가 호출하는 산수로컬 챗봇에 학원 시간표 사진, 에러 스크린샷, 지도 캡처 같은 이미지를 던지고 싶었다. 텍스트 모델(Qwen3.6:35B)은 이미지를 못 보니 vision 모델을 따로 띄워야 한다. 평범한 결정 같지만 — DGX Spark의 통합 메모리 128GB 안에서 텍스트 35B + vision을 어떻게 동거시킬 것인가가 곧바로 산수 문제가 된다.처음엔 32B로 등록했다가 7B로 다운그레이드했고, 결국 이 챗봇에서 이미지 분석 자체를 포기했다. 이 글은 그 시행착오의 기록이다. 메모리 산수와 GPU 스케줄러 우선순위 디자인까지는 깔끔했지만 실전에서 4가지 결함이 누적되면서 응답 ~10분이라는 수용 불가능한 비용에 도달했다. 다음 시도 — 외부 vision API, ..