AI Agent 长期记忆系统研究

01

为什么长期记忆是关键问题？

当前大多数 AI 系统都是无状态的：每次对话独立，模型靠 prompt 注入上下文，重启后完全丢失。这对一次性问答够用，但对"个人助手"场景是致命的。

Day 1

首次对话

"我的项目用的是 Next.js14 + TypeScript"

记忆状态 ✓ 已告知

Day 30

再次对话

Agent：完全不记得，需要重新解释一切

记忆状态 ✗ 完全丢失

Result

每次重启

"白纸一张"重新开始

效率 — 重复劳动

核心矛盾

用户希望 Agent"越用越懂我"，但无状态架构决定了每次都是陌生人。

02

4W 记忆分类体系

北邮 + BAI-LAB 2026年1月发布《Survey on AI Memory》，提出四类记忆的系统框架。

Memory Type	What（存什么）	When（何时写）	Where（存在哪）
Working	当前会话上下文	会话中实时	Context window
Episodic	事件、事实、偏好	任务完成/关键节点	SQLite+FTS5 / Vector DB
Procedural	技能、流程、操作序列	成功完成复杂任务后	Skills 目录（.md）
Semantic	通用知识、常识	外部知识注入	外部 KG / 知识库

记忆的本质：让 Agent 记住"发生过什么"（Episodic）+ 记住"怎么做"（Procedural）= Agent 越用越强

03

Working Memory & Episodic Memory

⚡ Working Memory — 人类的"工作台"

当前会话即时上下文
生命周期 = 当前会话
容量受限于 context window
会话结束即消失

📓 Episodic Memory — 人类的"日记本"

跨会话事实、偏好、经历
生命周期 = 永久保存
存储：SQLite + FTS5
检索：FTS5 全文搜索

// Episodic Memory 效果示例
Day 1: 你 → "我的项目用 Next.js14+TypeScript"
Day 30: 你 → "帮我加个新页面"
Agent → (自动检索技术栈记忆，直接创建)

04

Procedural Memory & Semantic Memory

💪 Procedural Memory — 人类的"肌肉记忆"

核心能力

将复杂操作固化为可复用技能

生命周期永久 + 迭代

存储位置~/.hermes/skills/*.md

触发机制Agent 发现有效 → 沉淀为 Skill

📚 Semantic Memory — 人类的"百科全书"

核心能力

通用知识、常识、事实知识

生命周期长期但相对静态

实现方式外部知识图谱、RAG

使用方式主动查询，非被动记忆

05

Hermes Agent 三层记忆架构

Nous Research · GitHub 100k+ Stars — 实践中的三层记忆架构。

1

Working Memory — 当前会话即时上下文，容量受限于 context window

↓

2

Episodic Memory — 跨会话事实，SQLite + FTS5 全文检索，永久

↓

3

Procedural Memory — 可复用 Skills，~/.hermes/skills/*.md，持续迭代

// 新会话启动流程
新会话开始
  → 检索 Episodic Memory (背景上下文)
  → 加载相关 Skills (Procedural Memory)
  → 合并 Working Memory (当前任务)
  → 执行 → 成功 → 评估是否沉淀新 Skill
  → 会话结束 → Working Memory 消失，Episodic/Skills 永久

06

存储架构对比

方案	代表项目	优点	缺点
SQLite + FTS5	Hermes Agent	轻量、零依赖、全文检索	非向量、复杂查询弱
向量数据库	多数 RAG 系统	语义检索强	额外服务、延迟
知识图谱	MCP-KG-Memory	关系推理强、可解释	构建成本高
混合架构	进阶方案	各取所长	复杂度高

Hermes 选择 SQLite + FTS5 — 轻量可靠，零额外依赖，对于个人 Agent 场景足够高效。

07

检索策略三大范式

FTS5 / BM25

关键词检索

基于词频和文档频率，适合精确匹配，零额外依赖

向量检索

语义相似度

文本编码为 embedding，余弦相似度检索，适合语义相近查询

混合检索

最优方案

先向量初筛，再 FTS 精确验证，兼顾语义+精确

Hermes Session Search 实际做法

FTS5 搜索历史会话 → 用 LLM 总结相关上下文 → 检索结果作为额外 context 注入当前 session → 不依赖外部向量服务，降低部署复杂度

08

记忆的写入时机

写入方式	实现难度	覆盖率	说明
用户显式声明	低	低（依赖用户主动）	"记住，我偏好..."
Agent 主动检测	中	中	需要 LLM 判断"这值得记住吗"
任务成功后自动提炼	高	高（最理想）	可能产生噪声
定时批处理	中	中	延迟高，但避免打断主流程

Hermes 的主动 Persistence 机制：系统会提示 Agent 把"值得保留的信息"写入 memory/skills — 这是 Hermes "自进化"的核心来源之一。

09

四大核心工程挑战

风险 1

记忆污染

错误/过时/矛盾记忆积累，Agent 行为不稳定

解决方向验证、遗忘、版本控制

风险 2

检索质量

RAG 核心瓶颈

解决方向重排序、上下文压缩、元数据过滤

风险 3

安全与隐私

API key、密码、商业机密

解决方向脱敏、加密、访问控制

风险 4

Skill 冲突

多 Skill 对同一任务矛盾

解决方向优先级、冲突检测、胜出机制

10

其他重要实现

MCP-KG-Memory

Hexecu · MCP Server

为 AI Coding Agent 添加持久知识图谱，追踪 Goals/Status/Constraints/Strategies，对接 Claude/Cursor/Windsurf

EverOS

ACL 2026 顶会

Agent Memory 自进化系统，Skills 进化引擎，复杂任务成功率 +234.8%

KV Cache as Memory

ACL-2026 · 复旦大学

KV Cache 重建为层次化记忆，流式视频理解实时响应，提速 10×

11

记忆系统评估维度

维度	含义
覆盖率	Agent 能记住多少"应该记住"的信息
准确性	检索到的记忆是否真正相关
及时性	记忆写入是否及时不丢失
可审计性	能否追溯 Agent 决策原因
遗忘能力	低价值记忆是否自然淘汰
隐私合规	敏感信息是否得到保护

12

核心趋势

趋势 01

AI 辅助标注成主流

大模型+人工协同，自动化率普遍达到 70-90%+

趋势 02

垂直行业深耕

医疗、自动驾驶、遥感、政务等领域专项标注平台涌现

趋势 03

产教融合提速

校企合作、实训基地成为人才培养主渠道

趋势 04

标准体系建设

多个案例推动国家标准/国际标准（ISO、OGC）

Summary

记忆是 Agent 进化的关键

核心结论

三层记忆架构（Working / Episodic / Procedural）+ 自进化 Skill 系统
让 Agent 越用越懂、越用越强

Hermes Agent MCP-KG-Memory EverOS 北邮BAI-LAB Nous Research