홈
태그
미디어로그
위치로그
방명록

분류 전체보기 (482)
- IT (368)
  - Tizen (114)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

아프니까 개발자다 아프니까 개발자다

컨텐츠 검색 블로그 내 검색

evaluation

LLM이 다른 LLM의 답을 채점하는 법 — judge prompt·rubric.json·3가지 안티패턴
IT 2026. 5. 29. 22:00

"검증을 LLM으로 한다"고 결정한 다음부터가 진짜 문제다. 어떤 모델을 부를지, 비용을 어떻게 줄일지는 별도 글에서 다뤘다. 이 글은 그 모델에게 무엇을 어떻게 물어볼 것인가 — system prompt 구조, rubric.json 설계, 그리고 LLM-as-judge가 빠지기 쉬운 함정들에 대한 기록이다.같은 페이지를 같은 모델에 넣어도 prompt가 다르면 점수가 1.5~2점씩 들쭉날쭉하다. 그 변동이 검증 임계값(8.0)을 가로지르면 같은 콘텐츠가 어떤 날은 통과하고 어떤 날은 hold queue로 떨어진다. "검증의 신뢰도"가 무너지는 순간 검증 시스템 자체가 신뢰를 잃는다. prompt와 rubric은 그 변동을 묶어 두는 베이스라인이다.1. 무엇을 채점할 것인가먼저 결정해야 할 건 "코드와 ..

이전

1

다음

인기포스트

ABOUT ME

http://facebook.com/theojini

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바