
Hybrid Search의 개념과 등장 배경
RAG(Retrieval-Augmented Generation) 시스템이나 현대적인 검색 아키텍처에서 데이터 검색의 정확도를 극대화하기 위해 하이브리드 검색(Hybrid Search) 방식이 널리 채택되고 있습니다. 하이브리드 검색은 전통적인 텍스트 매칭 방식인 키워드 검색(Keyword Search 또는 Sparse Retrieval)과 인공지능 기반의 벡터 검색(Vector Search 또는 Dense Retrieval)을 결합하여 각각의 단점을 상쇄하고 장점을 극대화하는 기술입니다.
많은 시스템이 고도화된 의미 분석을 위해 벡터 검색을 도입하지만, 현업의 다양한 검색 요구사항을 100% 만족시키기에는 한계가 존재합니다. 벡터 검색 단독 모델이 가지는 취약점을 보완하고, 어떤 형태의 사용자 질의어에도 안정적인 검색 품질을 보장하기 위해 하이브리드 검색이 필요하게 되었습니다.
Vector Search 단독 사용 시의 명확한 한계점
벡터 검색은 문장의 전체적인 맥락과 의미적 유사성을 파악하는 데 매우 탁월하지만, 수학적 공간(임베딩 벡터)에 의미를 압축하는 특성상 다음과 같은 특정 검색 시나리오에서 치명적인 정확도 저하를 보입니다.
- 정확한 키워드 및 고유명사 매칭 실패: 사용자가 품번, 모델명(예: “Galaxy S24 Ultra”), 고유 이름, 특정 에러 코드(예: “Error 404”)와 같은 명확한 단어를 검색할 때, 벡터 검색은 이를 텍스트 그대로 인식하기보다 유사한 다른 전자기기나 오류 개념의 벡터와 매칭하여 엉뚱한 문서를 반환하는 경우가 많습니다.
- 희소 단어 및 신조어 처리 무력화: 문서 전체에서 아주 드물게 등장하는 전문 용어나 최근에 생겨난 신조어의 경우, 임베딩 모델이 해당 단어의 의미적 가중치를 충분히 학습하지 못했을 확률이 높습니다. 이로 인해 정작 그 단어가 포함된 핵심 문서를 제대로 찾아내지 못합니다.
- 검색 의도의 과도한 일반화: “아이폰 액정 수리비”를 검색했을 때, 키워드 검색은 ‘액정’, ‘수리비’가 들어간 문서를 칼같이 찾아내지만, 벡터 검색은 의미가 유사한 ‘스마트폰 서비스 센터 안내’, ‘갤럭시 액정 교체’와 같은 문서까지 높은 유사도 점수로 함께 검색하여 결과의 정밀도를 떨어뜨릴 수 있습니다.
Hybrid Search가 Vector Search보다 유리한 이유
하이브리드 검색은 키워드 기반의 BM25 알고리즘과 밀밀한 의미 기반의 벡터 임베딩 기술을 동시에 구동하여 양쪽의 결과를 상호 보완합니다. 이를 통해 다음과 같은 명확한 비즈니스 및 기술적 우위를 확보합니다.
- 단어 매칭과 의미 이해의 완벽한 조화
- 사용자가 질문 안에 명확한 특정 단어(제품명, 법률 조항 번호 등)를 포함했을 때는 키워드 검색 엔진이 강력한 가중치를 부여해 해당 문서를 찾아내고, 질문의 표현이 추상적이거나 동의어를 사용했을 때는 벡터 검색 엔진이 맥락을 파악해 정답을 잡아냅니다.
- 검색 시스템의 강건성(Robustness) 확보
- 사용자들의 검색 습관은 매우 다양합니다. 단어 위주로 툭툭 던지는 검색어 유형과 완전한 문장 형태로 질문하는 유형 모두에 대해 하이브리드 검색은 평균적으로 가장 안정적이고 높은 매칭 점수를 유지합니다.
- Out-of-Distribution(학습 데이터 외) 데이터 대응
- 임베딩 모델이 미처 학습하지 못한 새로운 비즈니스 문서나 최신 트렌드 데이터가 시스템에 추가되더라도, 키워드 검색 파트가 형태소 분석을 통해 해당 문서들을 즉각적으로 검색 결과에 반영해 주므로 모델 재학습 주기 동안의 정보 공백을 메울 수 있습니다.
하이브리드 검색의 결과 결합 방식 (RRF와 가중치 선별)
키워드 검색의 점수 시스템(예: BM25 점수)과 벡터 검색의 점수 시스템(예: 코사인 유사도 점수)은 수학적 기준과 척도가 완전히 다릅니다. 따라서 하이브리드 검색이 제대로 작동하기 위해서는 두 검색 엔진이 가져온 결과를 영리하게 통합하는 알고리즘이 필수적입니다.
- Reciprocal Rank Fusion (RRF): 각 검색 방식이 반환한 문서들의 ‘절대적 점수’ 대신 ‘순위(Rank)’만을 이용하여 최종 점수를 계산하는 방식입니다. 개별 검색 결과에서 상위에 위치한 문서일수록 더 높은 점수를 부여받으며, 두 방식 모두에서 상위권에 오른 문서가 최종 결합 결과의 최상단에 배치됩니다. 점수 체계가 다른 두 시스템을 결합할 때 가장 안정적이고 널리 쓰이는 표준 기법입니다.
- 상수 가중치 결합 (Weighted Linear Combination): 키워드 검색 점수와 벡터 검색 점수를 각각 0과 1 사이로 정규화(Normalization)한 뒤, 사전에 정의한 가중치(예: 키워드 0.3, 벡터 0.7)를 곱해서 합산하는 방식입니다. 시스템의 도메인 특성에 맞춰 텍스트 매칭이 더 중요한지, 의미 이해가 더 중요한지 세부적으로 튜닝할 수 있다는 장점이 있습니다.
도메인별 하이브리드 검색 도입의 실제 효과
실제 서비스 환경에서 하이브리드 검색을 도입했을 때 얻을 수 있는 구체적인 기대 효과는 도메인의 성격에 따라 다르게 나타납니다.
- 이커머스(쇼핑몰) 검색
- 소비자가 “하얀색 여름용 린넨 셔츠”라고 검색하면, 벡터 검색을 통해 ‘시원한 소재’, ‘밝은 계열 상의’의 맥락을 잡는 동시에 키워드 검색으로 ‘린넨’, ‘셔츠’라는 단어가 명확히 박힌 상품 페이지를 우선 노출하여 구매 전환율을 높입니다.
- 사내 지식 관리 및 규정 검색 (RAG)
- “인사평가 C등급 성과급 지급 기준”과 같은 민감한 질문에 대해, ‘C등급’이라는 명확한 키워드 조건과 ‘성과급 지급 기준’이라는 제도적 맥락을 동시에 만족하는 정확한 사내 규정 문서를 타겟팅하여 LLM의 거짓 답변 가능성을 원천 차단합니다.
- 고객 지원 및 FAQ 챗봇
- 고객이 맞춤법을 틀리거나 비표준어로 질문하더라도 벡터 검색이 의도를 파악해 내고, 정형화된 안내 매뉴얼의 제목 키워드를 매칭하는 키워드 엔진이 협력하여 오안내율을 극적으로 낮춥니다.