evaluation
-
LLM이 다른 LLM의 답을 채점하는 법 — judge prompt·rubric.json·3가지 안티패턴IT 2026. 5. 29. 22:00
"검증을 LLM으로 한다"고 결정한 다음부터가 진짜 문제다. 어떤 모델을 부를지, 비용을 어떻게 줄일지는 별도 글에서 다뤘다. 이 글은 그 모델에게 무엇을 어떻게 물어볼 것인가 — system prompt 구조, rubric.json 설계, 그리고 LLM-as-judge가 빠지기 쉬운 함정들에 대한 기록이다.같은 페이지를 같은 모델에 넣어도 prompt가 다르면 점수가 1.5~2점씩 들쭉날쭉하다. 그 변동이 검증 임계값(8.0)을 가로지르면 같은 콘텐츠가 어떤 날은 통과하고 어떤 날은 hold queue로 떨어진다. "검증의 신뢰도"가 무너지는 순간 검증 시스템 자체가 신뢰를 잃는다. prompt와 rubric은 그 변동을 묶어 두는 베이스라인이다.1. 무엇을 채점할 것인가먼저 결정해야 할 건 "코드와 ..