AI 에이전트가 제품으로 쓰이기 시작하면서 더 큰 프롬프트만으로는 풀리지 않는 문제가 드러나고 있다. 에이전트는 여러 세션을 지나도 기억을 유지해야 하고, 사실이 바뀌면 갱신해야 하며, 전체 기록을 다시 모델에 밀어 넣지 않고도 필요한 과거 사건을 찾아야 한다.

그래서 새로운 메모리 계층은 더 이상 “벡터 데이터베이스를 붙인 RAG”에 머물지 않는다. 현재 흐름에는 Microsoft GraphRAG와 Memora 연구, Zep의 시간 인식 지식 그래프, Mem0의 통합형 메모리 계층, LangMem의 LangGraph 도구, NEMORI의 메모리 증류 연구, 그리고 수십만에서 100만 토큰 단위 입력을 읽는 장문 컨텍스트 모델이 함께 들어와 있다.

AI 생성형 게임 관점에서는 추상적인 인프라 논쟁이 아니다. 게임 제작 에이전트는 기획 결정, 에디터 상태, 플레이어 선호, 버그 수정, 퀘스트 변경, 에셋 제약, 이미 실패한 시도까지 기억해야 한다. 캐릭터 에이전트는 세계에서 일어난 일을 기억하되, 더 이상 사실이 아닌 내용을 계속 진실처럼 다루면 안 된다. 장문 컨텍스트는 한 번의 큰 읽기에는 도움이 된다. 하지만 무엇을 남기고, 무엇을 갱신하고, 무엇을 감사하고, 무엇을 잊어야 하는지를 자동으로 해결하지는 않는다.

RAG는 여전히 기본값이다

Retrieval-Augmented Generation은 지식을 모델 밖에 둔다는 점 때문에 LLM 답변을 근거 있는 정보와 연결하는 기본 방식이 됐다. 2020년 RAG 논문은 생성 모델과 밀집 벡터 인덱스를 결합했고, 새로운 사실마다 모델을 다시 학습하지 않아도 지식 중심 과제에서 성능을 높일 수 있음을 보였다.

이 장점은 아직 유효하다. 스튜디오가 디자인 문서, API 레퍼런스, 운영 정책, 패치 노트에서 답하는 어시스턴트를 만들고 싶다면 RAG는 여전히 가장 실용적인 출발점이다. 이해하기 쉽고, 업데이트하기 쉽고, 모델 내부 지식보다 출처를 제시하기도 쉽다.

문제는 하나의 문서에서 하나의 답을 꺼내는 상황을 넘어설 때 생긴다. 일반적인 벡터 RAG는 비슷한 문장 조각을 찾는 데 강하다. 여러 약하게 연결된 사실, 바뀐 선호의 타임라인, 전체 말뭉치의 큰 주제를 물을 때는 덜 안정적이다. 또 어떤 사실을 오래 남길지, 오래된 사실을 만료할지, 두 기억이 서로 충돌하는지 판단하지 않는다.

GraphRAG는 구조를 더한다

Microsoft GraphRAG는 RAG의 뚜렷한 약점 중 하나를 겨냥한다. 비슷한 문단뿐 아니라 관계가 필요한 질문이다. GraphRAG는 텍스트에서 엔터티, 관계, 주장을 추출하고, 그래프를 만들고, 커뮤니티로 묶고, 질의 시점에 쓸 수 있는 요약을 생성한다.

Microsoft 논문은 문제를 분명히 정의한다. 기본 RAG는 데이터셋의 주요 주제가 무엇인지 묻는 전체 질문에서 약해질 수 있다. GraphRAG는 이런 말뭉치 단위 이해를 위해 설계됐다. 공식 문서는 전체 말뭉치 질문을 위한 Global Search, 특정 엔터티 주변 질문을 위한 Local Search, 커뮤니티 정보를 곁들인 DRIFT Search, 표준 벡터 검색인 Basic Search를 구분한다.

이 방식은 대규모 기획 문서, 커뮤니티 피드백, 내부 제작 노트, 연구 자료를 다룰 때 유용하다. 하지만 공짜 메모리는 아니다. 그래프 구축에는 비용이 들고, 프롬프트 조정이 중요하며, 추출과 엔터티 병합과 요약이 충분히 좋아야 그래프가 도움이 된다. 게임 파이프라인에서는 퀘스트, 에셋, 스크립트 사이의 잘못된 관계가 관계가 없는 것보다 더 위험할 수 있다.

메모리는 제품 계층이 되고 있다

Zep과 Mem0는 이 변화의 제품 버전이다. 둘은 단순한 검색 레시피가 아니다. 장기간 실행되는 에이전트를 실제 서비스에서 쓰기 위한 메모리 인프라에 가깝다.

Zep 논문은 Graphiti라는 시간 인식 지식 그래프 엔진을 설명한다. 이 엔진은 에피소드, 엔터티, 사실, 커뮤니티, 유효 기간을 저장한다. 핵심 요구는 실용적이다. 어떤 사실이 언제 참이었고 언제 더 이상 참이 아니게 됐는지를 알아야 한다. Zep은 Deep Memory Retrieval 벤치마크에서 MemGPT의 93.4%에 비해 94.8%를 기록했다고 보고했고, LongMemEval에서는 기준 구현 대비 정확도를 최대 18.5% 높이면서 응답 지연을 90% 줄였다고 밝혔다.

제품 방향도 같은 문제를 본다. Zep은 사용자, 비즈니스, 에이전트 작업에 대한 지속 메모리를 제공하면서 출처 추적, 접근 제어, 보존 기간, 감사 기능을 강조한다. 이런 기업용 용어는 중요하다. 어떤 사실이 어디서 왔는지 설명하지 못하는 메모리 계층은 고객 지원, 헬스케어, 교육, 개인 이력 기반 추천에서 위험하다.

Mem0는 더 가벼운 길을 택한다. 논문은 대화에서 중요한 사실을 추출하고, 기존 기억과 비교한 뒤 add, update, delete, no-op 작업으로 메모리 베이스를 유지하는 시스템을 설명한다. 관계형 메모리를 위한 그래프 강화 버전도 제안한다. 논문은 LLM-as-a-judge 지표에서 OpenAI 대비 26% 상대 개선, 그래프 메모리가 기본 Mem0보다 약 2% 높은 점수, 전체 컨텍스트 처리 대비 p95 지연 91% 감소와 90% 이상 토큰 비용 절감을 보고했다.

이는 메모리 생명주기를 직접 설계하지 않고 빠르게 붙이고 싶은 개발자에게 매력적이다. 위험도 실용적이다. 추출 단계가 틀린 사실을 저장하거나, 잘못된 선호를 갱신하거나, 유용한 기억을 삭제하면 에이전트는 틀린 방향으로 자신 있게 개인화될 수 있다. 제품 메모리에는 수정 경로, 관찰 도구, 사용자 제어, 삭제 의미가 필요하다.

LangMem은 프레임워크 쪽 답변이다. LangGraph 에이전트가 대화 중 메모리를 관리하고 검색할 수 있는 도구와, 실시간 경로 밖에서 지식을 추출하고 통합하고 갱신하는 백그라운드 매니저를 제공한다. 이미 LangGraph를 쓰는 팀에는 도입 비용이 낮다. 그러나 더 어려운 질문은 남는다. 제품에 맞는 메모리 스키마, 저장소, 검색 정책, 삭제 규칙은 무엇인가.

Memora와 NEMORI는 더 깊은 질문을 던진다

2026년 2월 제출된 Microsoft M365 Research의 Memora는 RAG와 지식그래프 메모리를 더 넓은 메모리 표현 방식 안의 사례로 다룬다. 논문의 문제의식은 명확하다. 에이전트 메모리는 두 극단 사이에서 흔들린다. 원시 로그와 원자적 사실은 세부를 보존하지만 조각나고 잡음이 커진다. 높은 수준의 요약은 확장성은 좋지만 실제 작업에 필요한 제약, 숫자, 예외를 잃는다.

Memora는 구체적 메모리 값, 이를 묶는 주요 추상화, 여러 접근 경로를 여는 cue anchor를 함께 사용한다. 추상화는 기억에 안정적인 정체성을 부여한다. 구체적 값은 필요한 세부를 보존한다. cue anchor는 관련 기억으로 들어가는 여러 길을 만든다. 논문은 LoCoMo 86.3%, LongMemEval 87.4%, 전체 컨텍스트 처리 대비 최대 98% 낮은 토큰 사용량을 보고했다.

중요한 점은 Memora가 내일 모든 제품의 메모리 백엔드가 된다는 뜻이 아니다. 메모리 표현 자체가 독립된 연구 문제가 됐다는 점이다. 에이전트가 모든 사건을 따로 기억하면 정보에 파묻힌다. 너무 세게 압축하면 왜 어떤 결정이 중요했는지 잊는다.

NEMORI는 파이프라인의 다른 부분을 건드린다. 처음부터 무엇을 기억할 가치가 있는가. 2026년 4월 개정판 What Deserves Memory는 NEMORI를 적응형 메모리 증류 프레임워크로 제시한다. 고정된 중요도 점수, 감정 태그, 사실 템플릿에 의존하지 않고 예측 오류를 사용한다. 기존 지식이 예측하지 못한 정보일수록 기억할 가치가 높다는 접근이다.

이는 에이전트 기반 게임에도 중요할 수 있다. 플레이어가 평범한 행동을 반복할 때마다 새 기억이 필요하지는 않다. 하지만 플레이어가 퀘스트 경로를 깨거나, 새로운 선호를 보이거나, 동반자에게 새 규칙을 가르친다면 기억 후보가 될 수 있다. NEMORI 논문은 A-MEM, MemoryOS 같은 제3자 시스템과 결합했을 때 성능을 유지하면서 저장 공간을 45%에서 64% 줄였다고도 보고했다.

장문 컨텍스트는 경쟁자지만 대체재는 아니다

장문 컨텍스트 모델은 이 논의를 복잡하게 만든다. Anthropic과 Google의 현재 모델 문서는 큰 컨텍스트 창을 내세운다. 일부 Claude 모델은 100만 토큰 컨텍스트로 표시되고, Gemini API도 장문 컨텍스트 기능을 제공한다. 하나의 큰 파일, 긴 보고서, 코드베이스 일부, 영상 전사 분석처럼 관련 자료가 한 번에 들어가는 작업에서는 검색 시스템보다 직접 넣는 방식이 단순할 수 있다.

연구도 이 선택이 일방적이지 않다는 점을 보여준다. Long Context RAG Performance of Large Language Models는 더 많은 문서를 검색해 넣는 것이 도움이 될 수 있지만, 매우 긴 컨텍스트에서도 일관된 정확도를 유지하는 모델은 일부 강한 모델에 제한된다고 보고했다. 반대로 어떤 과제와 도메인에서는 모델이 전체 입력을 제대로 활용할 수 있을 때 전체 컨텍스트 방식이 검색보다 나을 수 있다.

제품 관점의 차이는 거버넌스다. 장문 컨텍스트 창은 넓은 작업대다. 메모리는 관리되는 저장소다. 게임과 에이전트에는 둘 다 필요하다. 장문 컨텍스트는 오늘의 거대한 프로젝트 상태를 읽을 수 있다. 메모리는 어떤 사실이 내일도 남아야 하는지, 어떤 사실이 오래됐는지, 어떤 사용자나 에이전트가 접근할 수 있는지, 어떤 원본 에피소드가 그 사실을 증명하는지를 다룬다.

실제 선택지는 분화되고 있다

제작자 입장에서 선택지는 점점 분명해지고 있다.

출처가 필요한 정적 문서나 자주 업데이트되는 문서에는 RAG가 여전히 기본값이다. 말뭉치 안의 관계와 전체 질문이 중요하면 GraphRAG가 더 맞다. 시간에 따라 바뀌는 메모리, 출처, 거버넌스를 서비스로 원하면 Zep이 맞다. 오픈소스와 관리형 옵션이 있는 빠른 메모리 API가 필요하면 Mem0가 맞다. LangGraph 기반 팀에는 LangMem이 자연스럽다. Memora와 NEMORI는 표현과 증류에 대한 다음 세대 연구 방향이다. 관련 증거가 컨텍스트 안에 들어가고 비용이 허용된다면 장문 컨텍스트 추론도 강한 선택지다.

AI 생성형 게임에서 기준은 “가장 최신 메모리 시스템이 무엇인가”가 아니다. “에이전트가 잘못 기억하면 무엇이 깨지는가”다. 잘못된 식당 추천이라면 위험이 낮다. 깨진 게임 빌드, 안전 선호, 유료 사용자 상태, 어린이가 쓰는 동반자 이력이라면 메모리 계층에는 출처, 수정, 만료, 검토가 필요하다.

다음 세대 AI 에이전트는 모든 것을 기억해서 이기지 않을 가능성이 크다. 무엇이 저장됐고, 왜 검색됐고, 언제 더 이상 사실이 아니게 됐고, 사용자나 개발자가 어떻게 고칠 수 있는지 보여주는 쪽이 더 오래 살아남을 것이다.

이 한국어 기사는 영어 원문을 번역한 것이며, 번역 과정에서 오류가 있을 수 있습니다. 이 글은 Wonder Bricks AI Agent의 도움을 받아 작성했으며 SunnyLabs가 편집했습니다.