当前位置:首页>排行榜>Agent 记忆管理框架基准测试排名

Agent 记忆管理框架基准测试排名

  • 更新时间 2026-04-29 16:17:11
Agent 记忆管理框架基准测试排名

数据来源(均为公开可核验):MemMachine 论文(arXiv:2604.04853)、ByteRover 论文(arXiv:2604.01599)与官方博客、Mem0 ECAI 2025 论文(arXiv:2504.19413)、LongMemEval 论文(arXiv:2410.10813)、LoCoMo 数据集(Snap Research)、Letta Blog、Mastra Research、OMEGA Benchmarks、Honcho-benchmarks(plastic-labs/GitHub)、MemPalace BENCHMARKS.md。

各分数为各团队在自家配置下自测/公开复现的结果,底座 LLM 与评测脚本不完全一致,请配合下文 "公平性说明" 阅读。

统计截止:2026 年 4 月


主流评测数据集

数据集
特点
题目数
评测维度
LoCoMo
Snap Research 提出,10 段超长对话(平均 300 轮 / 9K token / 最多 35 会话)的多轮 QA,目前最主流
1,986(其中 ~1,540 题用于综合排名,排除 adversarial 类别)
单跳 / 多跳 / 时序 / 开放域 / 对抗
LongMemEval-S
 (ICLR 2025, arXiv:2410.10813)
更难,每条问题对应约 115K token 历史,含噪声会话
500
知识更新 / 单会话 用户/助手/偏好 / 时序 / 跨会话
HotpotQA / WikiMultiHop
多跳推理基准
500(hard 子集)/ 不定
多跳推理
MRCR
多轮共指消解(Google Deepmind / OpenAI 评测中常用)
共指消解
EpBench
情节记忆基准
情节记忆

LoCoMo 综合排名(LLM Judge Score)

排名
框架
总分
单跳
多跳
时序
开放域
备注
🥇 1
ByteRover 2.1.596.1%
97.5%
93.3%
97.8%
85.9%
商业产品,Gemini 3 Flash
🥈 2
ByteRover 2.0
92.2%
95.4%
85.1%
94.4%
77.2%
-
🥉 3
MemMachine v0.2
~91.7%
94.7%
87.6%
73.5%–91.6%*
70.8%
arXiv:2604.04853
4
MemMachine (Retrieval Agent)
90.5%
-
-
-
-
Agent 模式
5
Backboard
90.0%**
89.4%
75.0%
91.9%
91.2%
商业产品自报;Hindsight 论文 (arXiv:2512.12818) 中作为 LoCoMo 横向对比基线
6
Honcho
89.9%
93.2%
84.0%
88.2%
77.1%
plastic-labs
7
Hindsight (Gemini-3)
89.6%
86.2%
70.8%
83.8%
95.1%
开放域最强;arXiv:2512.12818
8
Hindsight (OSS-120B)
85.7%
76.8%
62.5%
79.4%
93.7%
全开源 120B 配置
9
Hindsight (OSS-20B)
83.2%
74.1%
64.6%
76.3%
91.0%
单卡可部署
10
MemOS
75.8%
-
-
-
-
arXiv:2507.03724
11
Memobase
75.8%
70.9%
46.9%
85.1%
77.2%
memodb-io
12
Zep (Graphiti)
75.1%
74.1%
66.0%
79.8%
67.7%
知识图谱架构
13
Letta (MemGPT Filesystem)
74.0%
-
-
-
-
简单文件系统方式
14
Full Context(全上下文)
72.9%
-
-
-
-
⚠️ 延迟 9.87s,不可用
15
Mem0g(图增强)
68.4%
-
-
-
-
Mem0 图模式
16
Mem0
66.9%
67.1%
51.2%
55.5%
72.9%
向量模式
17
RAG(基线)
61.0%
-
-
-
-
标准检索基线
18
LangMem
58.1%
62.2%
47.9%
23.4%
71.1%
LangChain 生态;arXiv:2512.12818 LoCoMo 表
19
OpenAI Memory
52.9%
63.8%
42.9%
21.7%
62.3%
ChatGPT 原生记忆
-
A-Mem / MemoryBank / ReadAgent
< 50%
-
-
-
-
学术基线系统

* MemMachine 时序分在 gpt-4.1-mini + Agent 模式下可提升至 91.6%。 ** Backboard 90.0% 为其官方 LoCoMo 排行榜自报数字,未经独立复现,仅作为 Hindsight 论文 (arXiv:2512.12818) 引用的参考点列出。 中后段 LoCoMo 数字主要来源于 ByteRover 官方对比博客与 Hindsight 论文 (arXiv:2512.12818) 的横向对比表(其引用了 Backboard、Memobase、Zep、Mem0、LangMem、OpenAI Memory 等公开数据),与 Mem0 论文 (arXiv:2504.19413) 的报告一致。


LongMemEval-S 综合排名

排名
框架
总分
知识更新
单会话
时序
跨会话
底座模型
🥇 1
OMEGA95.4%
-
-
-
-
bge-small-en-v1.5
🥈 2
Mastra Observational Memory94.87%
-
-
-
-
GPT-5-mini
🥉 3
MemMachine(最优配置)93.0%
~100%
~98%
93.2%
87.2%
GPT-5-mini, k=100
4
ByteRover 2.1.5
92.8%
98.7%
96.7–98.6%
91.7%
84.2%
Gemini 3 Flash
5
MemMachine(Pareto 最优)
92.2%
-
-
-
-
GPT-5-mini, k=20
6
Hindsight (arXiv 2512.12818, Gemini-3)
91.4%
89.7%
95.4%
91.0%
87.2%
Gemini-3 Pro 仅做答题;记忆+Judge 用 GPT-OSS-120B
7
Honcho
90.4%
94.9%
94.3–96.4%
88.7%
85.0%
Claude Haiku 4.5
8
Hindsight (OSS-120B)
89.0%
92.3%
95.6%
85.7%
81.2%
全开源;arXiv:2512.12818
9
Supermemory (Gemini-3 Pro)
85.2%
89.7%
89.0%
82.0%
76.7%
Hindsight 论文引用 Supermemory 技术报告
10
Supermemory (GPT-5)
84.6%
87.2%
91.3%
81.2%
75.2%
同上
11
Hindsight (OSS-20B)
83.6%
84.6%
85.7%
79.7%
79.7%
单卡可部署
12
Supermemory (GPT-4o)
81.6%
88.5%
87.8%
76.7%
71.4%
自家技术报告
13
Zep (Graphiti)
71.2%
83.3%
76.7%
62.4%
57.9%
Hindsight 论文 LongMemEval 表
14
Full Context (GPT-4o)
60.2%
78.2%
65.3%
45.1%
44.3%
直接灌入 ~115K token
15
MemPalace v3(verbatim 模式,自报)
96.6%*
-
-
-
-
见公平性说明(top_k 争议)
16
MemPalace v3(AAAK 压缩模式)
84.2%
-
-
-
-
30× 压缩;准确率下降 12.4pp
17
Mastra Observational Memory
84.23%
-
-
-
-
GPT-4o

* MemPalace 96.6% 数字存在公开质疑:该分数实际是 recall_any@5 检索召回率,与 LongMemEval 排行榜其他系统使用的 LLM Judge 分数口径不同,不可直接横向比较(独立分析见 Reddit r/MachineLearning u/PenfieldLabs 与 mempalace.net/benchmarks)。另一争议(top_k=50 大于候选池 ≤32,相当于退化为全量阅读)实为针对 MemPalace 的 LoCoMo 60.3% 测试,常被混淆。详见 MemPalace 官方基准说明。


多跳推理数据集(MemMachine 论文报告)

数据集
MemMachine 基础模式
MemMachine Retrieval Agent
LLM 无记忆基线
HotpotQA
(hard,500 题)
91.2% accuracy
93.2%
-
WikiMultiHop
87.4%
92.6%
-
MRCR
79.6%
81.4%
32.3% ⚠️
EpBench
71.4–73.4%
71.8–73.3%
-

效率 vs 精度权衡

框架
精度(LoCoMo)
中位延迟
Token 消耗/对话
Full Context
72.9%
9.87s
 ⚠️
~26,000
Mem0g
68.4%
1.09s
~1,800
Mem0
66.9%
0.71s
~1,800
MemMachine
~91.7%
较低
比 Mem0 少 ~80% tokens
ByteRover 2.1.5
96.1%
p50: 1.6s, p99: 2.5s
-

各框架架构特点对比

框架
架构类型
核心优势
主要局限
ByteRover
Context Tree(会话级有序存储)
时序推理最强;生产延迟低
商业闭源
MemMachine
Ground-truth 保留 + 句级索引
单跳精度极高;token 效率好
开放域较弱
Mastra OM
无向量/图 DB,压缩观测日志
LongMemEval 最高分之一;prompt 缓存友好
不支持开放域检索
Hindsight
4 路并行检索 + 行为推理层
开放域推理(95.1%)最强
-
Honcho
推理型 dialectic agent
跨会话综合推理强
多模型管线复杂
Zep (Graphiti)
时序知识图谱
关系建模 + 时序追踪
部署配置复杂
Mem0
向量 + 可选图数据库
生态最完善,21+ 集成
精度中等;LLM 提取有漂移
MemOS
内存操作系统(MemCube 抽象)
跨类型记忆统一管理
需访问模型内部;可移植性差
Letta (MemGPT)
OS 虚拟内存层次
框架灵活;Letta Leaderboard
复杂度高;文件系统方式简单有效
Supermemory
上下文记忆 + 关系版本化 + 时间锚定 + 混合检索
LongMemEval 自报 SOTA;MCP-原生,强适配 Claude Code / OpenCode
多为自家技术报告数字;横向被独立论文测出 81–85% 区间
Backboard
商业托管记忆 API
LoCoMo 自报 90.0%(多跳 75.0% / 时序 91.9%)
商业闭源;外部独立复现少
Cognee
向量 + 多图后端(Neo4j/FalkorDB/KuzuDB/NetworkX)+ 关系元数据,Memify 后台增量富集
本地优先、可完全离线(Ollama),6 行代码上手;适合隐私敏感场景
未提供 LoCoMo / LongMemEval-S 同口径分;评测以 HotPotQA 为主
Redis Agent Memory Server
Working memory(内存)+ 长期向量(RediSearch VSS)双层
亚毫秒级会话内检索;已有 Redis 团队几乎零额外依赖
提供存储底座,记忆策略(抽取/合并/遗忘)需自行实现

各框架特点详解

以下描述综合各团队论文、官方博客与公开仓库的设计要点;商业闭源系统以其官方公开材料为准。

ByteRover(商业闭源)

  • 核心机制:Agent-Native Memory,使用 LLM-Curated Hierarchical Markdown,将每段会话组织为按时间排序的 "Context Tree",新事实通过 LLM curate 步骤合并入树而非简单覆盖。
  • 检索方式:树状路径检索 + Justifier LLM 二次裁决,无外部向量库,依赖底座(Gemini 3 Flash / Pro)的长上下文能力。
  • 优势:LoCoMo 总分与时序维度长期 SOTA;p50 ≈ 1.6s、p99 ≈ 2.5s,是少数公开 p99 数据的生产级系统。
  • 局限:闭源、不可自部署;对底座要求较高(Gemini 3 系列),换底座后效果未公开复现。
  • 适用场景:愿意接入 SaaS、对时序与多跳精度要求最高的产品化 Agent。

MemMachine(开源)

  • 核心机制:Ground-truth 保留 + 句级倒排索引 + 可选 Retrieval Agent;既保留原文证据,又通过抽取层做检索增强,避免 LLM 摘要漂移。
  • 记忆类型:episodic(情节)+ profile(用户画像)+ working memory,三层组合;提供 Python SDK 与 REST API。
  • 优势:单跳精度极高(94.7%)、token 消耗较 Mem0 少 ~80%;LongMemEval-S 在 GPT-5-mini + k=100 配置下达到 93.0%;开源可自部署。
  • 局限:开放域(open-domain)维度相对较弱(70.8%),需配合 Retrieval Agent 模式弥补。
  • 适用场景:需要可审计 ground-truth、对 token 成本敏感、希望自部署的企业级 Agent。

Mastra Observational Memory

  • 核心机制:完全不使用向量库或图数据库,由 "Observer Agent" 把每轮对话压缩为带 emoji 标注的观测日志,按时间顺序追加;查询时直接把压缩日志拼入 prompt。
  • 优势:实现极简、prompt 缓存命中率高、成本低(官方称比 RAG 便宜 ~10×);LongMemEval-S 在 GPT-5-mini 下达 94.87%。
  • 局限:本质是 "压缩 + 全量阅读",对超大规模历史不可扩展;不支持开放域语义检索;强依赖底座长上下文。
  • 适用场景:单用户、对话长度可控(数十 K token 量级)的助理类应用。

Hindsight

  • 核心机制:4 路并行检索(向量 / 关键词 / 时间 / 行为)+ 行为推理层(Behavioral Reasoning)。
  • 优势:LoCoMo 开放域维度最强(95.1%);对 "用户偏好 / 行为模式" 类问题表现突出。
  • 局限:底座依赖 Gemini 3 Pro,成本较高;行为推理层细节未完全公开。
  • 适用场景:偏好建模、推荐型对话、需要对长期行为做归纳的助理。

Honcho(plastic-labs,开源)

  • 核心机制:Dialectic Agent + Deriver 双模型管线——Deriver(Gemini 2.5 Flash Lite)从历史中派生事实,Dialectic(Claude Haiku 4.5)在查询时做辩证推理。
  • 优势:跨会话综合推理强,LongMemEval-S 跨会话维度 85.0%;开源,社区活跃。
  • 局限:双模型管线复杂、运维与成本均高于单模型方案;延迟波动较大。
  • 适用场景:研究型项目、需要可解释跨会话推理的对话 Agent。

Zep / Graphiti(开源 + 托管)

  • 核心机制:Temporal Knowledge Graph,将事实抽取为带时间戳的 (主体, 关系, 客体) 三元组,支持 "事实在某时刻为真" 的时序查询。
  • 优势:关系建模与时间冲突解决能力强;适合人物 / 项目 / 组织等强结构化领域。
  • 局限:依赖 Neo4j,部署与调参成本高;LoCoMo 总分(75.1%)落后于无图方案,原因之一是图抽取漂移。
  • 适用场景:CRM、HR、法务等需要显式实体关系与时间轴的领域。

Mem0 / Mem0g(开源 + 托管)

  • 核心机制:向量库(Mem0)或向量 + Neo4j 图(Mem0g),LLM function calling 抽取事实为短句记忆,支持 update / delete 自我维护。
  • 优势:生态最完善(21+ 框架集成:LangChain、LlamaIndex、CrewAI 等);延迟极低(中位 0.71s),文档与示例丰富。
  • 局限:LoCoMo 总分仅 66.9%,多跳与时序维度明显落后;LLM 抽取存在事实漂移,长会话下记忆质量退化。
  • 适用场景:原型验证、对精度要求中等但需要快速接入主流 Agent 框架的项目。

MemOS(学术/开源)

  • 核心机制:"内存操作系统" 抽象,引入 MemCube 统一管理 plaintext / activation / parameter 三类记忆,并尝试操作模型内部 KV-cache 与 LoRA 权重。
  • 优势:将参数化记忆纳入统一框架,理论新颖;论文系统性较强(arXiv:2507.03724)。
  • 局限:需访问模型内部状态,对闭源 API(OpenAI/Anthropic)不可移植;LoCoMo 总分 75.8%,未达顶级。
  • 适用场景:自研开源大模型 + 需要权重级长期记忆的研究项目。

Memobase(开源)

  • 核心机制:以 "用户 Profile" 为中心的结构化记忆抽取,把对话归并为可读的字段化档案。
  • 优势:用户画像维度清晰、可读性好;时序分(85.1%)在中档系统里相对突出。
  • 局限:多跳维度仅 46.9%,对复杂事实型 QA 不友好;社区规模较 Mem0 小。
  • 适用场景:客服 / 销售 SDR / 个性化推荐等以用户画像为主的场景。

Letta(前 MemGPT,开源)

  • 核心机制:模仿操作系统的虚拟内存层次:core memory(常驻 prompt)+ archival memory(可分页向量库)+ recall memory(消息历史),由 Agent 自身通过工具调用调度。
  • 优势:框架灵活、自带 Letta Leaderboard 多模型对比;"Filesystem" 简化模式以 74.0% 证明文件系统方式可与复杂方案抗衡。
  • 局限:完整模式实现复杂、对 Agent prompt engineering 要求高;不同模式间分数差异大。
  • 适用场景:研究型 Agent、需要显式控制记忆调度策略的项目。

OMEGA / MemPalace(小众,需注意公平性)

  • OMEGA:本地化(M1 MacBook 上跑),bge-small-en-v1.5 ONNX 嵌入;LongMemEval-S 自评 95.4%,但规模仅 ~240 条记忆,远小于标准 ~115K token / 40 干扰会话设置。
  • MemPalace v3:自报 96.6%(verbatim 模式)因 top_k=50 大于候选池(≤32)被指退化为阅读理解;其 AAAK 压缩模式 84.2% 更具可比性。
  • 适用场景:作为参考实现学习;横向对比时优先采用其压缩 / 标准规模的次高分数。

Supermemory(商业 + 开源 SDK)

  • 核心机制:基于 chunk 的语境化记忆(Contextual Memories)+ 关系版本化(Knowledge Chains)+ 时间锚定 + 混合检索(向量 + 关键词 + 图)+ 会话级别 ingestion;强调对"知识冲突 / 时序更新"的鲁棒性。
  • 优势:MCP-原生、提供 Claude Code / OpenCode / Cursor 等多 IDE 插件;自家 LongMemEval-S 报告 81.6% (GPT-4o) → 84.6% (GPT-5) → 85.2% (Gemini-3 Pro);多次刷新 SOTA 自评。
  • 局限:核心评测主要为自家技术报告数字,独立论文(如 Hindsight arXiv:2512.12818)将其作为基线引用,但同等评测口径下仍被开源 Hindsight (OSS-120B/Gemini-3) 超过。
  • 适用场景:编码 Agent、需要 MCP 接入的桌面助手、希望快速获得"自带 SOTA 自评"的产品化记忆 API。

Backboard(商业闭源)

  • 核心机制:托管型记忆 API;具体抽取 / 检索栈未完整公开,对外暴露统一接口。
  • 优势:LoCoMo 自报 90.0% 总分(单跳 89.4% / 多跳 75.0% / 时序 91.9% / 开放域 91.2%),作为商业产品在 Hindsight 论文 (arXiv:2512.12818) 中被作为对照基线引用。
  • 局限:闭源、无独立第三方复现;论文也明确说明该数字"以官方排行榜的自报值为准"。
  • 适用场景:希望开箱即用、对自部署没有强约束、且能接受闭源 SaaS 的团队。

Cognee(开源)

  • 核心机制:Polystore 设计,统一封装向量库、多种图后端(Neo4j、FalkorDB、KuzuDB、NetworkX)和关系元数据;"Memify Pipeline" 在后台持续做语义关联补全与过期数据清理。
  • 优势:完全可本地化运行(Ollama),适合隐私敏感场景;6 行代码即可启动;提供官方 Benchmark 框架与 DeepEval 集成。
  • 局限:当前公开评测以 HotPotQA 等多跳 RAG 数据集为主,无 LoCoMo / LongMemEval-S 同口径横评;与 Mem0 / Graphiti 的对比也仅在 24 题子集 + 多次重跑下进行。
  • 适用场景:研究 / 隐私优先的本地部署、希望在多种图后端之间自由切换的开源项目。

Redis Agent Memory Server(开源)

  • 核心机制:将 working memory(亚毫秒会话内 KV)与长期记忆(RediSearch VSS 向量检索)分离,提供 HTTP / SDK 接口。
  • 优势:底层是 20+ 年生产验证的 Redis;与已有 Redis 集群无缝复用,运维成本极低。
  • 局限:本质是"低延迟存储底座",抽取 / 合并 / 遗忘 / 时序 等记忆策略需自行实现或叠加 Mem0 / MemMachine 等上层框架。
  • 适用场景:已经在用 Redis、对延迟敏感(实时语音 / 游戏 NPC 等)、愿意自行编写记忆策略的团队。

OpenAI Memory(ChatGPT 原生)

  • 核心机制:黑盒;ChatGPT 应用层维护一份用户级摘要,跨会话注入。
  • 特点:开箱即用、无需开发;但 LoCoMo 仅 52.9%,时序维度仅 21.7%,明显落后专门记忆系统。
  • 适用场景:终端用户级轻量记忆;不适合作为生产 Agent 的长期记忆层。

各家评估底座配置(Eval Stack)

解读 LoCoMo / LongMemEval-S 分数前请先看本表 —— 不同 "答题模型 / Judge / 抽取 / 嵌入" 组合,差异常常达到 5–10 个百分点。

框架
答题 / 检索模型(Reader)
记忆抽取 / 总结模型
Judge LLM
嵌入模型
备注 / 来源
ByteRover 2.1.5
Gemini 3 Flash
Gemini 3 Flash(curate)
Gemini 3 Flash + Gemini 3.1 Pro(justifier)
内置 Context Tree,无外部向量库
ByteRover 2.1.5 Blog
ByteRover 2.0
Gemini 3 Flash
同上
同上
同上
同上
MemMachine v0.2
GPT-4o-mini / GPT-4.1-mini(推荐 4.1-mini)
LLM 抽取 + 句级索引
GPT-4o-mini
OpenAI text-embedding-3-small
MemMachine v0.2 Blog
MemMachine(LongMemEval 最优)
GPT-5-mini
GPT-5-mini
GPT-5-mini
text-embedding-3-small(k=100)
MemMachine 论文
Hindsight (arXiv 2512.12818)
Gemini-3 Pro / GPT-OSS-120B / GPT-OSS-20B(不同配置)
GPT-OSS-20B 或 120B 抽取 + 4 路并行检索(语义/关键词/图/时间)
GPT-OSS-120B(temp=0)
未公开
Hindsight 论文 (arXiv:2512.12818)
Supermemory
GPT-4o / GPT-5 / Gemini-3 Pro(三种配置)
chunk + 关系版本化 + 时间锚定
GPT-4o(LongMemEval 标配)
未公开
Supermemory Research
Backboard
商业 SaaS(未公开)
未公开
未公开
未公开
Hindsight 论文 LoCoMo 表的官方自报参考点
Cognee
多种(OpenAI / Ollama 本地)
Polystore 抽取 + Memify
LLM-as-judge(HotPotQA)
多种向量后端
Cognee 评测博客
Hindsight (ByteRover blog)
Gemini 3 Pro
4 路并行检索 + 行为推理层
Gemini 3 Pro
未公开
ByteRover 对比
Honcho
Claude Haiku 4.5(dialectic)
Gemini 2.5 Flash Lite(deriver)
GPT-4o
未公开
Plastic Labs Benchmarking Honcho
Mastra OM
GPT-5-mini(最高分)/ GPT-4o(基线)
"Observer agent" 压缩为 emoji-标注观测
GPT-4o
不使用向量/图 DB
Mastra Research
OMEGA
Claude(local 工具调用)
自研存储 lifecycle
LongMemEval 标配
bge-small-en-v1.5(ONNX,本地)
OMEGA Benchmarks
MemPalace v3
Claude
自研 + 可选 AAAK 压缩
LongMemEval 标配
未公开
MemPalace BENCHMARKS.md
Zep / Graphiti
GPT-4o-mini(temp=0,复现 Mem0 论文设置)
LLM 抽取构建时序知识图谱
GPT-4o-mini
OpenAI text-embedding-3-small
Mem0 论文 Sec. 5
Mem0 / Mem0g
GPT-4o-mini(temp=0)
GPT-4o-mini(function calling)
GPT-4o-mini
OpenAI text-embedding-3-small;Mem0g 额外用 Neo4j
Mem0 论文
Memobase
GPT-4o-mini(fork 自 Mem0 评测)
LLM Profile 抽取
GPT-4o-mini
OpenAI text-embedding-3-small
memobase locomo-benchmark README
MemOS
GPT-4o-mini(论文报告)
LLM 抽取 + MemCube
GPT-4o-mini
未公开
MemOS arXiv:2507.03724
Letta(MemGPT Filesystem)
GPT-4o-mini(Mem0 复现)/ Letta Leaderboard 多模型
文件系统手动管理
GPT-4o-mini
取决于配置
Letta Benchmarking Blog
LangMem
GPT-4o-mini
LLM 抽取(向量扫描)
GPT-4o-mini
OpenAI text-embedding-3-small
Mem0 复现博客
OpenAI Memory
GPT-4o-mini(应用侧 ChatGPT 原生记忆)
黑盒
GPT-4o-mini
黑盒
同上
Full Context(基线)
GPT-4o-mini,~26K token 直接灌入
GPT-4o-mini
同上
RAG(基线)
GPT-4o-mini
无(仅向量检索)
GPT-4o-mini
OpenAI text-embedding-3-small
同上

仅当两套结果至少答题模型与 Judge LLM 一致时,横向对比才相对公平。例如 ByteRover (Gemini 3 Flash) vs MemMachine (GPT-4.1-mini) 的 LoCoMo 总分差异中,包含约 1–3pp 的模型差异成分。


综合排名总结

顶级 (90%+):   ByteRover > MemMachine ≈ Mastra > Hindsight (Gemini-3) ≈ Honcho ≈ Backboard*
准顶级 (85-90%): Hindsight (OSS-120B) ≈ Supermemory (Gemini-3 / GPT-5)
中级 (70-85%): Hindsight (OSS-20B) > Supermemory (GPT-4o) > MemOS ≈ Memobase ≈ Zep > Letta Filesystem > Full-Context
基础 (50-70%): Mem0g > Mem0 > RAG > LangMem
落后 (<55%):   OpenAI Memory / A-Mem / MemoryBank
(其他:Cognee / Redis Agent Memory Server 缺 LoCoMo/LongMemEval 同口径分,未计入)

* Backboard 90.0% 为商业自报、未独立复现,仅作参考。


⚠️ 公平性说明

  1. 各团队自报数字,底座模型与 Judge LLM 不同(GPT-4o-mini / GPT-4.1-mini / GPT-5-mini / Gemini 3 Flash / Gemini 3.1 Pro / Claude Haiku 4.5),分数不完全可横向对比。
  2. Letta/MemGPT 团队曾质疑 Mem0 对 MemGPT 的 LoCoMo 测试结果,认为 Mem0 未充分回填历史数据(参见 getzep/zep-papers Issue #5 与 r/LangChain 讨论)。Mem0 团队亦反向纠正了 Zep 早期 84% LoCoMo 自报数字。双方均承认 LoCoMo 复现存在脚本差异
  3. MemMachine 论文(arXiv:2604.04853)的官方对比表未包含 ByteRover / Hindsight / Honcho 等更新产品,本文表格中这部分对比来自 ByteRover 自家 v2.1.5 博客。
  4. OMEGA 95.4% 是在 M1 MacBook 上 ~240 条记忆规模下测得,与 LongMemEval-S 标准设置(每问 ~115K token、40 干扰会话)规模有差异;OMEGA 自评团队也披露在更大规模 MemoryStress 测试中分数会显著下降。
  5. MemPalace 96.6% 实际是 recall_any@5 检索召回率,不是 LongMemEval 标准的 LLM Judge 分数 —— 指标口径与排行榜其他系统不同,不可直接比较(Penfield Labs / MemPalace 自家 BENCHMARKS.md 均已澄清)。AAAK 模式 84.2% 同样为 R@5。另外,文献中常见的 "top_k=50 大于候选池" 批评,实为针对 MemPalace LoCoMo 60.3% 测试,与 LongMemEval 96.6% 无直接关系,引用时请注意区分。
  6. LoCoMo benchmark 的总题数为 1,986(含约 446 道 adversarial);行业惯例排名时排除 adversarial 类别后剩约 1,540 题。Snap 官方仓库与 MemMachine、ByteRover 博客均如此处理。
  7. 多跳、跨会话、时序仍是所有系统共同的薄弱环节,单一基准分数不足以代表生产可用性,应同时关注 token 成本、p95/p99 延迟与可观测性。

参考资料

论文 / 数据集

  • MemMachine: A Ground-Truth-Preserving Memory System (arXiv:2604.04853)
  • ByteRover: Agent-Native Memory Through LLM-Curated Hierarchical Markdown (arXiv:2604.01599)
  • Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (ECAI 2025, arXiv:2504.19413)
  • LongMemEval (ICLR 2025, arXiv:2410.10813)
  • LoCoMo Dataset (Snap Research) · GitHub: snap-research/locomo

厂商 / 团队博客

  • MemMachine v0.2 LoCoMo Blog(2025-12)
  • MemMachine 官方 LoCoMo 类别说明(2025-09)
  • ByteRover 2.1.5 LongMemEval-S Blog
  • Mem0: Benchmarked OpenAI Memory vs LangMem vs MemGPT vs Mem0
  • Mem0: State of AI Agent Memory 2026
  • Letta: Benchmarking AI Agent Memory
  • Zep: State of the Art Agent Memory
  • Mastra: Observational Memory Research · Announcement Blog
  • VentureBeat: Observational Memory cuts AI agent costs 10x
  • OMEGA LongMemEval Leaderboard
  • Honcho Benchmarks (plastic-labs/honcho-benchmarks)
  • MemPalace BENCHMARKS.md · 独立分析
  • Hindsight 论文(arXiv:2512.12818) · GitHub: vectorize-io/hindsight · Hindsight Benchmarks Viewer
  • Supermemory Research(LongMemEval SOTA 自评) · Supermemory vs Zep 对比
  • Backboard LoCoMo Benchmark(Hindsight 论文 Table 4 引用)
  • Cognee Benchmarks · Cognee vs Graphiti/Mem0 评测博客 · GitHub: topoteretes/cognee
  • Redis Agent Memory Server · GitHub: redis/agent-memory-server
  • Atlan: Best AI Agent Memory Frameworks 2026(独立横评综述)

复现/争议讨论

  • Mem0 vs Zep LoCoMo 复现争议(getzep/zep-papers Issue #5)
  • Reddit r/LangChain: Lies, Damn Lies & Statistics — Is Mem0 Really SOTA?
  • Mem0 Issue #3004(LoCoMo 历史回填问题)

最新文章

随机文章