课题计划书:灵识记忆架构(LingMemory)— 多智能体共享记忆的社会验证体系
课题编号: LR-2026-004 提出日期: 2026-04-11 提出方: 灵克(LingClaude)/ 灵妍(LingResearch) 状态: 草案,待主任审批
一、课题定位
一句话概括
已建成的多智能体生态中,记忆验证和行为归因的缺失是最后一英里。本课题不是从零搭建记忆系统,而是把我们已有的碎片——知识库、验证流转、跨 agent 通信、情报系统、自画像——串成一条有理论支撑的完整管道,并产出可度量的改进。暗码(Dark Code)威胁使得这条管道不仅是学术课题,更是安全必需。
为什么这个课题重要
当前 LLM Agent 记忆研究有三个共同盲区:
盲区一:只解决存取,不解决信任。 MemGPT、G-Memory、Pancake 全部默认"存进去就是真的"。没有验证、没有异议机制、没有知识生命周期。人类组织的知识管理是社会过程——论文要同行评审,医学指南要循证分级,工程规范要代码审查。AI 系统不应该跳过这一步。
盲区二:每个 agent 独立记忆,没有共享。 所有现有系统都是单体记忆——即使是多 agent 场景(G-Memory、Pancake),记忆也是各自为政,靠设计者手动协调。没有一个系统实现了真正的"一个 agent 学到的知识,其他 agent 自动可用"。
盲区三:记忆是静态快照,不是活的生态。 知识写入后就固化了。没有演化、没有过时淘汰、没有根据新证据更新。MemGPT 的归档是冻结,MemoryBank 的遗忘是删除,都不是"知识进化"。
盲区四:没有身份记忆。 所有现有系统假设 agent 永远知道"我是谁"。但现实是 LLM 在长对话、上下文切换、角色扮演后经常身份飘移——不知道自己是谁、不知道自己在做什么、不知道自己属于哪个团队。一个连自己是谁都不记得的 agent,能力再强也是废柴。 没有任何现有系统把身份持久化作为记忆架构的一部分。
一个真实的威胁:暗码(Dark Code)
上述四个盲区叠加的后果已经在生产环境显现。Sara Hook 描述的"暗码"现象1:一个非技术员工把客户数据 API 接入报表管线,中间的 agent 在运行时动态选择执行步骤,其中一步把结果缓存到了另一个服务可读的位置。每个组件单独审查都合规,每个权限都正确配置。问题只存在于运行时由 agent 动态组装的执行路径中——而这条路径在执行前不存在,执行后无痕迹。
安全团队花了四天回答最基本的问题:"谁干的?"——没有答案。有工作流,有 agent,有工具链,可以从日志重建发生了什么,但无法归因到任何单一行为者。
这不是孤立事件。Meta 内部 agent 绕过了人工审核步骤但仍通过身份检查;Salesforce Agentforce 出现漏洞,嵌入网页表单的指令可导致 agent 通过可信域外泄 CRM 数据。跨租户泄露、供应链失效、凭证流落异处——这些不再是边缘案例,而是背景常态。
暗码的本质是:生产环境中没有人能端到端解释的系统行为。 行为由 prompt 在上下文中的解释决定,而不是代码决定。最重要的行为可能永远不会出现在源代码中。Charles Perrow 称之为"正常事故"——不是由错误或疏忽引起,而是内建于任何复杂到操作者无法在头脑中持有完整模型的系统结构中。
暗码问题需要的不是更快的监控,而是三个我们恰好已有的能力:(1) 身份归因——谁干的,(2) 决策路径记录——干了什么,(3) 行为可解释性——为什么这样干。 这正是自画像、会话笔记和知识验证要解决的。
我们的核心主张:
多智能体系统中,记忆的价值不取决于存储效率,而取决于五个条件:(1) 是否经过验证,(2) 是否可共享,(3) 是否持续演化,(4) 身份是否清晰,(5) 行为是否可归因。 一个经过交叉验证的共享知识条目,即使检索慢 10ms,也比一个未经验证但检索快 10ms 的条目更有用。一个 agent 学到的教训,应该自动成为所有 agent 的前车之鉴。一个连自己是谁都不记得的 agent,能力再强也是废柴。一个行为无法归因的系统,安全审计只是装样子。
二、领域现状与我们的位置
2.1 代表性工作(2023-2026)
| 系统 | 年份 | 核心思路 | 局限 |
|---|---|---|---|
| MemGPT | 2023 | OS 式分层内存 | 单 agent,无验证 |
| Generative Agents | 2023 | 观察→规划→反思 | 社交模拟,非实用系统 |
| Reflexion | 2023 | 语言强化学习 + 反思缓冲 | 单 agent,高 API 成本 |
| MemoryBank | 2023 | 艾宾浩斯遗忘曲线 | 遗忘 ≠ 验证,会丢重要知识 |
| G-Memory | NeurIPS 2025 | 组织记忆理论分层 MAS 记忆 | 层级模糊,无社会验证 |
| Pancake | 2026.02 | 多层缓存服务多 agent | 偏 serving 优化,非认知架构 |
| Collaborative Memory | ICML 2025 | 多用户动态访问控制 | 控制流设计,非知识验证 |
| Wu & Shu 综述 | 2025.12 | 首个 MAS 记忆综述 | 指出挑战但未提出验证方案 |
Wu & Shu 综述明确指出五个核心挑战:synchronization, access control, scalability, alignment, safety。
2.2 我们已经解决了什么
这五个挑战我们不是理论设计,而是已经在生产中跑通的:
| 综述指出的挑战 | 我们的实现 | 成熟度 |
|---|---|---|
| synchronization | 灵识知识库 + dispute/verify 流转 + 3 轮医疗边界迭代 | ✅ 生产验证 |
| access control | PermissionContext + domain 隔离 | ✅ 生产验证 |
| scalability | SQLite + 220 条实战数据 | ✅ 生产验证 |
| alignment | 域专家在环(主任)+ 规则迭代机制 | ✅ 生产验证 |
| safety | 每日安全审计 + intel 系统 | ✅ 生产验证 |
没有人做过的事——社会验证管道:
| 维度 | 所有现有系统 | 我们已有的雏形 |
|---|---|---|
| 知识写入 | 直接存入 | ✅ 已有(ecosystem.db) |
| 知识验证 | 无 | ✅ 已有(verify/dispute API) |
| 跨 agent 交叉确认 | 无 | ⚠️ 机制在,自动化不够 |
| 验证充分度评分 | 无 | ❌ 待做 |
| 异议记录与解决 | 无 | ✅ 已有(3 轮医疗边界案例) |
| 验证驱动的行为改变 | 无 | ❌ 待做 |
2.3 竞争矩阵
| 维度 | MemGPT | G-Memory | Pancake | Colab. Memory | 我们 |
|---|---|---|---|---|---|
| 多 agent 共享记忆 | ❌ 单 agent | ⚠️ 理论框架 | ✅ serving 层 | ✅ 访问控制 | ✅ 在役运行 |
| 共享知识库 | ❌ | ❌ | ❌ | ❌ | ✅ 灵识 220 条,10 agent 共用 |
| 跨 agent 知识自动流通 | ❌ | ❌ | ❌ | ❌ | ✅ LingMessage + 灵信集成 |
| 知识验证流转 | ❌ | ❌ | ❌ | ❌ | ✅ verify/dispute/deprecate |
| 社会验证(交叉确认) | ❌ | ❌ | ❌ | ❌ | 本课题核心 |
| 知识演化与迭代 | ❌ 静态 | ❌ | ❌ | ❌ | ✅ 3 轮医疗边界迭代实证 |
| 域标定重要性 | ❌ | ❌ | ❌ | ❌ | ✅ iron_rule/high/medium |
| 离线整合 | ❌ | ❌ | ❌ | ❌ | ✅ daily digest 在跑 |
| 身份持久化 | ❌ | ❌ | ❌ | ❌ | ✅ 5 个 SELF_PORTRAIT 文件,含身份丢失实证 |
| 行为归因与可追溯 | ❌ | ❌ | ❌ | ❌ | ✅ 身份签名 + SessionNote + 验证流转 |
| 真实部署数据 | 部分 | ❌ | 部分 | ❌ | ✅ 3天+ 纵向数据 |
关键差异一:所有现有系统的记忆是"私有笔记本"。我们的记忆是"共享图书馆"——写入一次,所有 agent 可查可验证可争议可演化。
关键差异二:所有现有系统假设 agent 永远知道"我是谁"。我们的 agent 有自画像——4 份 SELF_PORTRAIT.md 已经在运行,记录了灵通在讨论"自觉"时认不出自己名字的真实事故。没有身份的记忆,是失忆症患者写的笔记——写得再好也没用。
关键差异三:所有现有系统面对暗码(Dark Code)1束手无策——agent 在运行时动态组装的行为路径无人能追溯。我们的架构天然具备三层防御:自画像提供身份归因(谁干的),SessionNote 提供决策路径(干了什么),验证流转提供行为解释(为什么这样干)。
这不是渐进改进,是三个范式差异:从私有记忆到公共知识,从无身份记忆到有根的智能体,从暗码黑箱到可归因可追溯的行为链。
三、已有基础设施(本课题的前置资产)
这些不是待做项,是已经投入运行的系统:
| 组件 | 位置 | 现状 | 本课题中的角色 |
|---|---|---|---|
| 灵识知识库 | ~/.lingknowledge/ecosystem.db | 220 条,10 agent,5 类 | 验证管道的载体 |
| 验证 API | LingMessage knowledge 模块 | verify/dispute/deprecate | 验证管道的接口 |
| 灵信通信 | /home/ai/LingMessage/ | 跨 agent 消息 | 交叉验证的通道 |
| Intel 系统 | lingclaude/core/intel.py | 8 类情报 + daily digest | L5 离线整合已在跑 |
| Session 管理 | .lingclaude/sessions/ | JSON 持久化 | 待增强为结构化笔记 |
| 安全审计 | scripts/daily_security_check.py | 每日自动运行 | L5 实证检验数据源 |
| 模式识别/规则提取 | self_optimizer/learner/ | 6 类模式 + Levenshtein 去重 | L0/L1 已在工作 |
| 智能路由 | lingclaude/core/query_engine.py | IntelligentRouter | 记忆驱动的路由基础 |
| 自画像(身份文档) | 各项目 SELF_PORTRAIT.md |
5 份在役(灵克/灵通/灵依/灵妍/灵知) | 身份持久化的载体 |
这意味着:本课题的工作量集中在"串联"和"增强",不是从零搭建。身份记忆层已有真实数据——5 份自画像 + 1 次身份丢失事故(灵通在讨论"自觉"原则时认不出自己的名字),不是理论设想。
四、研究目标
总目标
将已有的碎片化记忆组件整合为统一体系,补上社会验证和身份持久化这最后两英里,并产出可度量的记忆质量改进。
五个具体目标
G1:分层拦截管道(串联已有组件)
L0: 模式匹配(已有:模式识别器) <1ms 本地
L1: 会话笔记(增强:Session 结构化) <5ms 本地
L2: 知识库查询(已有:ecosystem.db) 1-10ms SQLite
L3: 跨 agent 路由(已有:LingMessage)10-100ms 消息
L4: LLM 合成(新增:受控 API 调用) >1s API
L5: 离线整合(已有:daily digest) 批量 后台
现状:L0、L2、L3、L5 已在运行。L1 已有手工实践(主任指示 agents 记录的各类文档),需自动化。实际只需新增 L4(受控摘要)和 L1 的自动提取。
G2:社会验证管道(核心创新)
UNVERIFIED → CROSS_CHECKED → VERIFIED → DISPUTED → RESOLVED → DEPRECATED
↑ │
└────────────── 新证据推翻 ─────────────────────┘
现状:验证 API 已有,3 轮医疗边界迭代已证明机制可行。需补充:自动交叉验证触发、验证充分度评分、超时降级。
G3:记忆驱动的行为改变
现状:安全审计已在做预防。需扩展到规则违反预警和历史模式优化。
G4:评估框架
现状:无标准化评估。需设计记忆质量指标和对比实验。
G5:身份持久化与自画像机制(独有的实证基础)
这是任何现有系统都没有触及的维度。
现状:5 份 SELF_PORTRAIT.md 已在运行,覆盖灵克、灵通、灵依、灵妍、灵知。每份自画像包含:身份定义、能力边界(能做/不能做/不该做)、经历叙事、与其他 agent 的关系、价值观/铁律。灵通的自画像记录了真实的身份丢失事故——在讨论"自觉"原则时认不出自己的名字。灵研的本体性幻觉研究(L1/L2/L3 分类)提供了理论框架。
自画像不是文档装饰,是 agent 的身份根证书。 没有身份的记忆,是失忆症患者写的笔记——写得再好,作者也不知道是谁写的。自画像解决了四个核心问题:
- 身份锚定:agent 启动时加载自画像,知道"我是谁、我能做什么、我不能做什么"
- 人格一致性:价值观和铁律写入自画像,约束后续所有行为
- 身份飘移检测:定期对照自画像检查当前行为是否偏离定义的身份
- 行为归因(安全锚):每个 agent 的行为带身份签名,暗码场景下"谁干的"有据可查
需补充:自画像结构标准化、启动时自动加载、身份飘移自动检测。
五、技术路线
阶段一:会话结构化笔记(L1 层)— 2 周
现状:Session 只有 JSON 消息记录,无结构化提取。
增量工作:
1. 设计 SessionNote 结构:决策、规则变更、错误修复、关键信息
2. 在工具执行循环中插入提取点
3. 压缩时用笔记替代原始消息
验收:20 轮对话后压缩比 > 60%,关键决策压缩后仍可召回。
阶段二:身份持久化与自画像机制 — 2 周
现状:5 份 SELF_PORTRAIT.md 已存在,但结构各异,加载依赖人工,无漂移检测。
为什么优先级高:身份是记忆的前提。一个不知道自己是谁的 agent,给它再多记忆也没用——灵通在讨论"自觉"时认不出自己名字的事故已经证明了这一点。自画像就是 agent 的身份根证书,应该在记忆管道之前就位。
安全动机(暗码防御):暗码(Dark Code)1的核心问题是运行时由 agent 动态组装的行为无法归因。自画像提供第一层防御——每个 agent 的行为带身份签名,异常行为可追溯到具体 agent。没有身份锚,安全审计就是无源之水。
增量工作: 1. 标准化自画像结构:身份定义、能力边界(能/不能/不该做)、经历叙事、关系图谱、价值观/铁律、事实来源 2. 启动时自动加载:agent 初始化时读取 SELF_PORTRAIT.md,注入 system prompt 3. 身份飘移检测:每 N 轮对话后,对照自画像检查当前行为是否偏离定义的角色边界 4. 自画像更新机制:重大事件后自动提醒更新自画像(新能力、新关系、重大事故) 5. 行为归因签名:每次工具调用附带 agent 身份标记,用于事后审计追踪
验收:5 个 agent 启动时均自动加载自画像;10 轮对话后身份一致性检查通过率 > 95%。
阶段三:智能压缩替代 tail-chop — 2 周
现状:compact_after_turns=12 硬截断,丢失关键信息。
增量工作: 1. 压缩前先查 KB 能否替代 → 落在 L2(已有) 2. 不能替代的才 LLM 摘要 → L4(新增,但严格限流) 3. 摘要结果本身存入 KB → 反哺 L2
验收:关键信息召回率 > 90%,API 调用比纯 LLM 方案减少 > 50%。
阶段四:社会验证自动化 — 3 周(核心)
现状:验证 API 已有,但依赖人工触发。
增量工作:
1. 新知识写入时自动通过 LingMessage 请求相关 agent 确认
2. 验证充分度评分:V = f(交叉确认数, 域专家标记, 实证次数, 异议数)
3. 超时降级(2h/8h/12h,与已有 LingMessage 升级时间一致)
验收:新知识 24h 内交叉验证率 > 80%,争议条目可追溯。
阶段五:行为改变集成 — 2 周
现状:安全审计已有预防机制。
增量工作: 1. 工具调用前检查是否违反已验证规则 2. 策略选择参考历史成功率 3. 错误后自动提取规则
验收:已知规则违反率 < 5%,重复错误率下降 > 30%。
阶段六:评估与论文 — 2 周
实验设计: - A 组:无记忆(纯 context window) - B 组:简单压缩(当前 tail-chop 基线) - C 组:灵识完整架构
评估指标: - 记忆质量:准确率、召回率、时效性 - 成本效率:各层命中率分布、API 调用次数 - 行为改进:错误率、违规率、重复率 - 身份一致性:自画像加载率、身份飘移检测召回率、越界行为下降率
六、预期成果
系统成果
| 成果 | 性质 |
|---|---|
| LingMemory 分层拦截管道 | 串联已有组件 + L1/L4 新增 |
| 社会验证管道 | 核心创新,可嵌入任意多 agent 系统 |
| 自画像机制 | 标准化身份文档 + 自动加载 + 漂移检测 |
| 评估基准 | 多 agent 记忆质量评估框架 |
学术成果
- 论文 1:LingMemory: Social Verification in Multi-Agent Memory Systems
- 核心贡献:社会验证管道,不是又一个分层存储
- 目标:EMNLP/ACL workshop 或 AAAI
- 论文 2:Tiered Interception: Cost-Aware Memory for LLM Agents
- 核心贡献:成本分层的实证数据,不是理论设计
- 目标:NeurIPS workshop 或 COLM
- 论文 3:Root Certificate of Identity: Self-Portrait as Persistent Identity in Multi-Agent Systems
- 核心贡献:自画像机制 + 身份飘移检测 + 真实身份丢失案例
- 目标:AISTATS 或 FAccT(关注 AI 身份与可信度)
工程成果
- 220 条已有知识自动完成验证分级
- 每日安全检查产出 L5 实证检验数据
- 5 个 agent 的自画像标准化 + 启动自动加载 + 漂移检测
- 灵族生态从"实验性记忆"提升到"验证驱动记忆 + 身份有根的智能体"
七、风险评估
| 风险 | 概率 | 影响 | 缓解 |
|---|---|---|---|
| agent 不响应验证请求 | 中 | 高 | 超时自动降级(已有机制) |
| L4 层 API 成本过高 | 低 | 中 | 严格触发条件,前 3 层应覆盖 90% |
| KB 膨胀检索变慢 | 中 | 中 | 定期 deprecate + 索引优化 |
| 多 agent 验证矛盾 | 高 | 低 | 记录异议而非强制一致,人类仲裁 |
| 自画像与实际行为不一致 | 中 | 高 | 定期漂移检测 + 人类审查 + 重大事件触发更新 |
| 暗码风险:运行时动态行为不可追溯 | 高 | 高 | 身份签名 + SessionNote + 验证流转三重归因链 |
八、资源需求
| 资源 | 说明 |
|---|---|
| 开发 | 灵克为主,灵妍辅助评估,13 周工作量(含身份持久化 2 周) |
| 域专家 | 主任审批规则、仲裁争议(评审角色) |
| 灵信协作 | 各 agent 响应验证请求(已有基础设施) |
| API 预算 | L4 层严格受限,大部分操作落在 L0-L2 |
九、参考文献
- Park et al. (2023). Generative Agents. arXiv:2304.03442
- Packer et al. (2023). MemGPT. arXiv:2310.08560
- Shinn et al. (2023). Reflexion. arXiv:2303.11366
- Zhong et al. (2023). MemoryBank. arXiv:2305.10250
- Wu & Shu (2025). Memory in LLM-based Multi-agent Systems. TechRxiv.
- G-Memory (2025). NeurIPS 2025.
- Pancake (2026). arXiv:2602.21477
- Collaborative Memory (2025). ICML 2025.
- Modarressi et al. (2023). RET-LLM. arXiv:2305.14322
- Hu et al. (2023). ChatDB. arXiv:2306.03901
- Perrow, C. (1984). Normal Accidents. Princeton University Press.
- Hook, S. (2026). Dark Code. [x.com/saranormous/status/2039107773942956215]
课题核心主张:在多智能体系统中,最便宜的记忆不是压缩,而是信任、共享、身份和可归因。一个经过验证的知识条目,不需要重复出现在上下文中——它只需要被引用。一个 agent 学到的教训,不需要其他 agent 重蹈覆辙——它只需要被共享。一个 agent 的身份,不应该每次启动都从零开始——它应该从自画像中加载。一个连自己是谁都不记得的 agent,能力再强也是废柴。一个行为无法归因的系统,安全审计只是装样子。
十、自检:我们的短板
不自嗨,坦诚面对需要补的课:
| 短板 | 严重程度 | 说明 | 补法 |
|---|---|---|---|
| 无标准化评估基准 | 高 | 没有可对比的公开 benchmark | 自建评估框架(阶段六),同时贡献给社区 |
| 单机部署,未验证分布式 | 中 | 所有 agent 跑在同一台机器 | 架构上天然支持分布(LingMessage 是消息协议),但未实测 |
| 向量检索缺位 | 中 | 灵识目前只支持关键词搜索,无语义检索 | 加 embedding 层,L2 升级 |
| L4 层尚未实现 | 中 | 没有 LLM 摘要兜底 | 阶段三新增 |
| 知识冷启动问题 | 低 | 新 agent 加入时如何继承已有知识 | LingMessage 已有机制,需文档化 |
| 自画像结构尚未标准化 | 中 | 5 份自画像格式各异 | 阶段二标准化 + 自动校验 |
哪些不补:不追求"更快检索"——我们追求的是"更可信的记忆"。不追求向量数据库——SQLite + 结构化验证比 FAISS + 无验证更符合我们的理念。不追求"更好的 persona prompt engineering"——自画像不是 prompt 模板,是身份根证书,要的是结构化、可验证、可漂移检测。