'Claude' 태그의 글 목록

MCP sampling/createMessage: AI 도구가 AI를 부르는 역방향 설계

IT 2026. 6. 14. 21:00

MCP(Model Context Protocol — AI 모델과 외부 시스템을 잇는 Anthropic의 공개 표준)를 처음 배우면 흐름이 단순하다. 사용자가 질문하면 LLM이 도구를 호출하고, 도구가 결과를 돌려준다. 단방향이다. 그런데 MCP 스펙 문서를 읽다가 낯선 기능 하나가 눈에 걸린다. sampling/createMessage. 서버(도구 쪽)가 클라이언트(LLM 쪽)에 LLM 추론을 역으로 요청하는 기능이다.이름 자체에 설계 의도가 담겨 있다. MCP 메서드는 네임스페이스/동작 형식으로 명명된다 — tools/call(도구 실행), resources/read(리소스 읽기)처럼. 여기서 sampling은 ML 용어로, LLM이 텍스트를 생성하는 행위 자체를 가리킨다. 언어 모델은 다음 토큰을 고..

LLM 검증을 싸게 — haiku 1차 + sonnet 재검증 + Redis SHA 캐시

IT 2026. 5. 29. 21:00

"LLM으로 페이지를 검증하자"는 결정은 쉽다. 그런데 막상 검증 대상이 쌓이기 시작하면 비용이 만만치 않다. 현재 deep-wiki는 22개 repo × 평균 6 페이지 = 약 132 페이지를 다루지만, 이건 시작점일 뿐이다. 대규모 OS 도메인은 모듈만 수백 개고, 모듈당 페이지도 평균 6에서 수십 페이지로 늘어난다. 개인 프로젝트로 운영하지만 다루는 콘텐츠 규모는 결코 작지 않다 — 132 페이지에서 1,000 페이지로, 다시 5,000 페이지로 비선형으로 커질 수 있다. 검증은 콘텐츠나 rubric이 바뀔 때만 일어나지만, 그 누적 호출 자체가 곧 비용이 된다. Anthropic Sonnet(고품질·고비용 모델) 단독으로만 검증한다고 가정하면 호출 1회에 $0.038. 5,000 페이지 시스템에서..

AI 모델 리더보드, Chatbot Arena 완전 해부

IT 2026. 4. 17. 21:00

AI 모델이 수백 개인 시대, 어떤 걸 써야 할까?GPT-5, Claude Opus, Gemini 3, DeepSeek, Qwen, Llama… 매주 새로운 AI 모델이 쏟아져 나오는 시대입니다. "대체 어떤 게 제일 좋은 거야?"라는 질문에 답하기가 점점 어려워지고 있죠.벤치마크 점수? 모델 제작사가 직접 내놓는 점수표는 자기한테 유리한 시험지를 골라 낸 성적표 같은 느낌이 들기도 합니다. 사람이 직접 두 모델의 답변을 나란히 놓고, 어느 쪽이 나은지 투표하면 어떨까? 바로 그 아이디어로 만들어진 것이 Chatbot Arena(현재 공식 명칭: LM Arena)입니다.UC 버클리 LMSYS 팀이 만든 이 플랫폼은 현재까지 570만 건 이상의 익명 투표를 모아 337개 이상의 모델을 랭킹하고 있으며, A..

녹음 파일을 넣으면 요약이 나온다 — 음성 자동 전사 & 요약 파이프라인 구축기

IT 2026. 3. 19. 22:00

세미나를 듣고 왔다. 핵심 내용을 정리해야 하는데, 1시간짜리 녹음 파일을 다시 듣기가 귀찮다. 녹음은 성실하게 했는데 정리는 영원히 밀린다.이 문제를 해결하기 위해 "녹음 파일을 폴더에 넣으면 요약 문서가 자동으로 나오는" 파이프라인을 만들었다. 폰에서 녹음하면 서버로 자동 동기화되고, AI가 전사하고, 화자를 구분하고, 요약하고, 저장하고, 알림까지 보내준다.이 글에서는 전체 아키텍처와 각 단계의 설계 의도를 정리한다.전체 아키텍처스마트폰 (음성 녹음) ↓ SFTP 자동 동기화 (FolderSync)서버 ~/voice-inbox/ ↓ watchdog (파일 감지 즉시 트리거) ↓ Python 파이프라인 ├─ 1. 필터링 (통화 녹음 제외) ├─ 2. 포맷 변환 (m4a → ..

ABOUT ME

아프니까 개발자다 아프니까 개발자다

티스토리툴바