MTEB
-
2026년 RAG용 임베딩 모델 총정리 - OpenAI 넘어선 오픈소스들IT 2026. 3. 25. 21:00
왜 임베딩 모델 선택이 중요한가?"우리 회사 문서로 RAG(검색 강화 생성) 시스템 만들었는데, 질문하면 엉뚱한 답이 나와요." 이런 얘기 많이 들어보셨죠? 문제의 90%는 임베딩 모델 선택에 있습니다.임베딩 모델은 RAG의 첫 관문입니다. 문서와 질문을 벡터(숫자 배열)로 변환해서 "비슷한 내용 찾기"를 담당하는데, 여기서 잘못 찾으면 뒤에 아무리 좋은 LLM을 써도 소용없습니다. 특히 한국어 문서가 많은 환경에서는 모델 선택이 더욱 중요해집니다.게다가 2024년부터 상황이 완전히 바뀌었습니다. 예전에는 OpenAI의 text-embedding-ada-002나 3-large가 최고였는데, 이제는 오픈소스 모델들이 성능도 더 좋고 비용도 무료입니다. 굳이 API 비용 내고 데이터 외부로 보낼 이유가 없어..