Research Report · 2026

AI Agent 长期记忆系统研究

从"会话级工具"到"真正助手"的核心跃迁

🧠 技术研究 北邮BAI-LAB Nous Research GitHub Agent社区
📅 2026 📊 数据来源:Survey on AI Memory 2026
01

为什么长期记忆是关键问题?

当前大多数 AI 系统都是无状态的:每次对话独立,模型靠 prompt 注入上下文,重启后完全丢失。这对一次性问答够用,但对"个人助手"场景是致命的。

Day 1
首次对话
"我的项目用的是 Next.js14 + TypeScript"
记忆状态 ✓ 已告知
Day 30
再次对话
Agent:完全不记得,需要重新解释一切
记忆状态 ✗ 完全丢失
Result
每次重启
"白纸一张"重新开始
效率 — 重复劳动
核心矛盾
用户希望 Agent"越用越懂我",但无状态架构决定了每次都是陌生人。
02

4W 记忆分类体系

北邮 + BAI-LAB 2026年1月发布《Survey on AI Memory》,提出四类记忆的系统框架。

Memory Type What(存什么) When(何时写) Where(存在哪)
Working 当前会话上下文 会话中实时 Context window
Episodic 事件、事实、偏好 任务完成/关键节点 SQLite+FTS5 / Vector DB
Procedural 技能、流程、操作序列 成功完成复杂任务后 Skills 目录(.md)
Semantic 通用知识、常识 外部知识注入 外部 KG / 知识库
记忆的本质:让 Agent 记住"发生过什么"(Episodic)+ 记住"怎么做"(Procedural)= Agent 越用越强
03

Working Memory & Episodic Memory

⚡ Working Memory — 人类的"工作台"

  • 当前会话即时上下文
  • 生命周期 = 当前会话
  • 容量受限于 context window
  • 会话结束即消失

📓 Episodic Memory — 人类的"日记本"

  • 跨会话事实、偏好、经历
  • 生命周期 = 永久保存
  • 存储:SQLite + FTS5
  • 检索:FTS5 全文搜索
// Episodic Memory 效果示例 Day 1: "我的项目用 Next.js14+TypeScript" Day 30: "帮我加个新页面" Agent → (自动检索技术栈记忆,直接创建)
04

Procedural Memory & Semantic Memory

💪 Procedural Memory — 人类的"肌肉记忆"

核心能力
将复杂操作固化为可复用技能
生命周期永久 + 迭代
存储位置~/.hermes/skills/*.md
触发机制Agent 发现有效 → 沉淀为 Skill

📚 Semantic Memory — 人类的"百科全书"

核心能力
通用知识、常识、事实知识
生命周期长期但相对静态
实现方式外部知识图谱、RAG
使用方式主动查询,非被动记忆
05

Hermes Agent 三层记忆架构

Nous Research · GitHub 100k+ Stars — 实践中的三层记忆架构。

1
Working Memory — 当前会话即时上下文,容量受限于 context window
2
Episodic Memory — 跨会话事实,SQLite + FTS5 全文检索,永久
3
Procedural Memory — 可复用 Skills,~/.hermes/skills/*.md,持续迭代
// 新会话启动流程 新会话开始 → 检索 Episodic Memory (背景上下文) → 加载相关 Skills (Procedural Memory) → 合并 Working Memory (当前任务) → 执行 → 成功 → 评估是否沉淀新 Skill → 会话结束 → Working Memory 消失,Episodic/Skills 永久
06

存储架构对比

方案 代表项目 优点 缺点
SQLite + FTS5 Hermes Agent 轻量、零依赖、全文检索 非向量、复杂查询弱
向量数据库 多数 RAG 系统 语义检索强 额外服务、延迟
知识图谱 MCP-KG-Memory 关系推理强、可解释 构建成本高
混合架构 进阶方案 各取所长 复杂度高
Hermes 选择 SQLite + FTS5 — 轻量可靠,零额外依赖,对于个人 Agent 场景足够高效。
07

检索策略三大范式

FTS5 / BM25
关键词检索
基于词频和文档频率,适合精确匹配,零额外依赖
向量检索
语义相似度
文本编码为 embedding,余弦相似度检索,适合语义相近查询
混合检索
最优方案
先向量初筛,再 FTS 精确验证,兼顾语义+精确

Hermes Session Search 实际做法

FTS5 搜索历史会话 → 用 LLM 总结相关上下文 → 检索结果作为额外 context 注入当前 session → 不依赖外部向量服务,降低部署复杂度

08

记忆的写入时机

写入方式 实现难度 覆盖率 说明
用户显式声明 低(依赖用户主动) "记住,我偏好..."
Agent 主动检测 需要 LLM 判断"这值得记住吗"
任务成功后自动提炼 高(最理想) 可能产生噪声
定时批处理 延迟高,但避免打断主流程
Hermes 的主动 Persistence 机制:系统会提示 Agent 把"值得保留的信息"写入 memory/skills — 这是 Hermes "自进化"的核心来源之一。
09

四大核心工程挑战

风险 1
记忆污染
错误/过时/矛盾记忆积累,Agent 行为不稳定
解决方向验证、遗忘、版本控制
风险 2
检索质量
RAG 核心瓶颈
解决方向重排序、上下文压缩、元数据过滤
风险 3
安全与隐私
API key、密码、商业机密
解决方向脱敏、加密、访问控制
风险 4
Skill 冲突
多 Skill 对同一任务矛盾
解决方向优先级、冲突检测、胜出机制
10

其他重要实现

MCP-KG-Memory
Hexecu · MCP Server
为 AI Coding Agent 添加持久知识图谱,追踪 Goals/Status/Constraints/Strategies,对接 Claude/Cursor/Windsurf
EverOS
ACL 2026 顶会
Agent Memory 自进化系统,Skills 进化引擎,复杂任务成功率 +234.8%
KV Cache as Memory
ACL-2026 · 复旦大学
KV Cache 重建为层次化记忆,流式视频理解实时响应,提速 10×
11

记忆系统评估维度

维度 含义
覆盖率 Agent 能记住多少"应该记住"的信息
准确性 检索到的记忆是否真正相关
及时性 记忆写入是否及时不丢失
可审计性 能否追溯 Agent 决策原因
遗忘能力 低价值记忆是否自然淘汰
隐私合规 敏感信息是否得到保护
12

核心趋势

趋势 01
AI 辅助标注成主流
大模型+人工协同,自动化率普遍达到 70-90%+
趋势 02
垂直行业深耕
医疗、自动驾驶、遥感、政务等领域专项标注平台涌现
趋势 03
产教融合提速
校企合作、实训基地成为人才培养主渠道
趋势 04
标准体系建设
多个案例推动国家标准/国际标准(ISO、OGC)
Summary

记忆是 Agent 进化的关键

核心结论
三层记忆架构(Working / Episodic / Procedural)+ 自进化 Skill 系统
让 Agent 越用越懂、越用越强
Hermes Agent MCP-KG-Memory EverOS 北邮BAI-LAB Nous Research