
Lost in the Middle 현상의 정의와 개요
대형 언어 모델(LLM)의 컨텍스트 윈도우가 수백만 토큰으로 확장되면서 방대한 양의 텍스트를 한 번에 입력할 수 있게 되었습니다. 하지만 정보를 대량으로 입력하는 것과 이를 완벽하게 활용하는 것은 다른 문제입니다.
Lost in the Middle(중간 실종 현상)은 LLM이 입력된 긴 컨텍스트 중에서 맨 앞(초반부)과 맨 뒤(후반부)의 정보는 잘 기억하고 인용하는 반면, 중간에 위치한 핵심 정보는 제대로 인지하지 못하고 놓치는 현상을 의미합니다. 이로 인해 모델의 정보 활용 능력은 중앙부가 움푹 꺼진 형태의 ‘U자형 곡선(U-shaped Curve)’을 그리게 됩니다.
Lost in the Middle 현상이 발생하는 핵심 원인
이 현상은 단순한 모델의 소프트웨어적 오류가 아니라, 트랜스포머(Transformer) 아키텍처의 수학적 구조, 학습 데이터의 패턴, 그리고 인간의 기억 메커니즘과 유사한 인공신경망의 특성이 복합적으로 작용하여 발생합니다.
1. 인과적 어텐션 마스크(Causal Attention Masking)의 구조적 한계
GPT 계열을 포함한 대부분의 autoregressive(생성형) LLM은 문장을 왼쪽에서 오른쪽으로 한 글자씩 생성하도록 설계되어 있으며, 이를 위해 ‘인과적 어텐션 마스크’를 사용합니다.
- 이 구조에서 텍스트 맨 앞에 있는 토큰들은 뒤이어 오는 모든 토큰으로부터 어텐션(Attention, 주목)을 받습니다. 즉, 첫 번째 토큰은 마지막 토큰까지 생성되는 내내 시야에 노출됩니다.
- 반면, 문서 중간에 위치한 토큰들은 오직 자신보다 뒤에 나오는 토큰들로부터만 어텐션을 받게 되므로, 상대적으로 주목받는 총량이 적어지고 정보의 영향력이 약화됩니다.
2. 위치 인코딩 데케이(Positional Encoding Decay) 및 한계
모델은 텍스트 내부에서 단어들의 순서와 물리적 거리를 파악하기 위해 RoPE(Rotary Position Embedding)와 같은 위치 인코딩 기술을 사용합니다.
- 컨텍스트 창이 비대해질수록 두 토큰 사이의 거리가 멀어지며, 멀리 떨어진 토큰 간의 어텐션 가중치는 수학적으로 감쇠(Decay)하도록 설계되어 있습니다.
- 모델이 긴 문맥을 처리할 때, 중간 구역은 앞부분의 시작점(시작 태그 및 시스템 프롬프트)과 뒷부분의 종착점(사용자의 최종 질문) 모두로부터 거리가 멀기 때문에 두 끝단에 비해 위치 신호가 상대적으로 희미해집니다.
3. 사전 학습 데이터(Pre-training Data)의 편향
LLM이 사전 학습 단계에서 학습한 대규모 웹 데이터, 논문, 뉴스 기사, 도서 등은 인간이 글을 쓰는 표준적인 구조를 따르고 있습니다.
- 대다수의 문서와 글은 가장 중요한 주제와 핵심 요약을 맨 앞(헤드라인, 서론, 서두)이나 맨 뒤(결론, 요약, TL;DR)에 배치하는 경향이 있습니다.
- 모델은 수십억 개의 문서를 학습하는 과정에서 “중요한 신호와 정답의 실마리는 보통 문서의 양 끝에 존재한다”는 통계적 사전을 무의식적으로 학습하게 되며, 이것이 중간 정보를 소홀히 다루는 편향으로 이어집니다.
4. 최근성 편향(Recency Bias)의 작용
모델이 최종 답변을 생성하기 직전에 읽은 토큰들, 즉 프롬프트의 가장 마지막 부분(대개 사용자의 질문이나 최종 지시문)은 모델에게 가장 강력한 자극을 줍니다. 이 최근성 편향은 문맥의 맨 뒷부분에 있는 정보의 중요도를 증폭시키는 반면, 이미 지나쳐 온 중간 영역의 정보 효율성을 떨어뜨리는 결과로 이어집니다.
비즈니스 자동화 및 RAG 시스템에 미치는 영향
Lost in the Middle 현상은 단순히 텍스트 요약 성능에만 그치지 않고, 기업용 AI 시스템의 안정성에 치명적인 영향을 미칩니다.
- 건초더미에서 바늘 찾기 실패: RAG(검색 증강 생성) 파이프라인에서 벡터 데이터베이스가 찾아낸 상위 20개의 청크를 LLM 프롬프트에 그대로 밀어 넣을 경우, 정답이 담긴 핵심 청크가 우연히 10번째나 11번째(중간 위치)에 배치되면 LLM은 그 정보를 무시하고 “데이터에서 관련 내용을 찾을 수 없다”고 답변하거나 할루시네이션(환각 현상)을 일으킵니다.
- 컨텍스트 효율성 저하: 무조건 많은 정보를 프롬프트에 채워 넣는 것이 답변 품질 향상으로 이어지지 않으며, 오히려 중간 구역을 넓혀 정보 유실 확률을 높이고 API 연산 비용만 가중시키는 부작용을 낳습니다.
현상 극복을 위한 실무적 대응 전략
이 구조적 취약점을 보완하기 위해 인공지능 파이프라인 설계 시 다음과 같은 엔지니어링 기법을 반드시 결합해야 합니다.
- 리랭커(Reranker) 도입을 통한 순서 재배치
- 1차 검색된 수십 개의 청크를 그대로 넣지 않고, 크로스인코더 기반의 리랭커를 사용하여 가장 연관성이 높은 핵심 청크 3~5개만 정밀 타겟팅하여 선별합니다.
- 선별된 청크 중에서도 가장 중요한 문서를 프롬프트의 최상단(맨 앞)이나 최하단(사용자 질문 직전)에 인위적으로 배치하여 U자형 곡선의 이점을 취하도록 설계합니다.
- 정보의 밀도 최적화 및 압축
- 청크의 크기를 무조건 크게 잡거나 무관한 주변 문맥을 길게 유지하기보다는, 정보가 중간에 묻히지 않도록 핵심 문장 위주로 컨텍스트를 간결하게 유지하는 청킹 최적화가 선행되어야 합니다.
- 핵심 프롬프트 및 질문의 후방 배치
- 시스템 프롬프트나 제약 조건, 그리고 사용자가 던지는 궁극적인 질문(Query)을 프롬프트의 가장 맨 뒤에 배치하여 모델이 답변을 생성하기 직전에 명확한 지침을 인지할 수 있도록 유도합니다.