nlp
-
Bi-Encoder vs Cross-Encoder, 왜 둘 다 필요한가IT 2026. 3. 26. 21:00
이 글을 왜 읽어야 하나?RAG(Retrieval-Augmented Generation, 검색 증강 생성)를 공부하다 보면 "Bi-Encoder로 후보를 뽑고 Cross-Encoder로 Reranking한다"는 말을 자주 만납니다. 그런데 둘 다 "두 텍스트가 얼마나 관련 있는지" 점수를 매기는 건데, 왜 하나로 안 되고 굳이 두 개가 필요할까요?이 질문에 답하려면, 이 두 방식이 어떤 근본적인 문제를 풀기 위해 나왔는지부터 이해해야 합니다. 결론부터 말하면, 둘은 같은 문제의 서로 다른 면을 해결합니다. 그래서 둘 다 필요합니다.실생활 비유: 도서관에서 책 찾기비유를 하나 들어보겠습니다.Bi-Encoder는 도서관의 분류 시스템입니다. 모든 책에 미리 분류 번호를 매겨두고, 당신이 원하는 주제의 번호만..
-
벡터 DB에 넣기 전, 문서 전처리 체크리스트IT 2026. 3. 24. 21:00
청킹 전에 전처리를 안 하면 생기는 일지난 글에서 벡터 DB에 "무엇을" 넣을지 정하는 법을 다뤘어요. 이번엔 그다음 단계입니다: "어떻게" 넣을 것인가.많은 분들이 문서를 바로 청킹(chunking)해서 벡터 DB에 넣으려 하는데, 그 사이에 빠진 단계가 있어요. 바로 전처리(preprocessing)입니다.전처리 없이 그냥 넣으면 어떤 일이 벌어질까요?API 레퍼런스의 파라미터 테이블이 깨져서, 검색해도 "이 파라미터가 필수인지 선택인지" 알 수 없게 됩니다가이드 문서의 제목 계층이 사라져서, "인증의 토큰 갱신"인지 "캐시 만료"인지 맥락을 잃습니다한영 혼합 문장에서 "embedding모델을설치" 같은 띄어쓰기 없는 구간이 통째로 하나의 토큰이 되어 검색에 걸리지 않습니다Garbage In, Gar..