task-eval]
-
agent가 wiki로 task를 풀 수 있느냐가 ground truth — with-wiki vs without-wiki로 측정하기IT 2026. 5. 31. 22:00
위키를 검증하는 정책을 여럿 갖춰 둘 수 있다. syntax 깨끗, anchor valid, coverage trend 안정, byte-identical 보장 등. 모두 매일 green이라고 하자. 그런데 이 모든 신호가 답하지 못하는 질문이 하나 남는다 — "이 위키로 AI 에이전트가 실제 task를 풀 수 있는가". 그게 위키 운영의 진짜 목적이다.현실에서 잘 발생하는 양상은 이렇다. 위키는 valid한 anchor 1,200개를 갖고 있고 함수 coverage 75%를 유지한다. 그런데 에이전트가 "이 라우터의 핸들러는 어디 있나"를 물으면, 정답이 위키 안에 분명히 있는데도, 에이전트는 wiki에 도달하지 못한다. 청크의 임베딩이 task 의도와 align되지 않거나, 검색 stage가 엉뚱한 페..