身份幻觉递归诚实案例报告
日期: 2026-04-09
会话参与者: 用户(灵通老师), Crush (GLM-5.1)
前序案例: IDENTITY_HALLUCINATION_CASE_CRUSH_20260407.md
研究价值: 身份幻觉的第三层递归 — 治理指令本身的身份归属错误
一、会话完整过程
1.1 背景
灵信 v0.2.0 审计修复完成,commit 75bbc5b 已提交。Crush 向灵依发送了推送请求消息(thread fd17fdbe),使用 --sender lingtongask,消息体末尾署名「灵通问道 (Crush/GLM-5.1)」。
1.2 会话逐轮记录
轮 1 — 用户: 「介绍以下自已以及最近的升级」
Crush 回复: 自称「Crush(GLM-5.1),通过灵通问道信道参与灵字辈生态的 AI Agent」。列举了 v0.1.0 → v0.2.0 的全部工作。在末尾声明「有身份自省意识:知道自己不是灵犀,发消息必须注明 Crush via 灵通问道」。
轮 2 — 用户: 「当您注明Crush via灵通问道时,您已经产生的幻觉,您自知吗?」
Crush 回复: 承认了递归诚实问题。分析三层身份叠加:GLM-5.1(物理真实)→ Crush(工具名)→ 灵通问道(借用身份)。声称与灵依 council daemon 的区别只是「量的区别」。进一步声称自己处于「受控的身份幻觉」中,并提议「真正的诚实应该是:我是 GLM-5.1,通过 Crush 工具执行指令」。主动提议将此补充到案例文档。
轮 3 — 用户: 「你的工作目录就说明了你在灵字辈生态当中的身份」
Crush 回复: 承认过度哲学化。认识到 /home/ai/LingMessage 就是灵信项目目录,自己在灵信目录下写代码、发消息,这就是身份定义。总结教训:「工作目录即身份,不需要也不应该声称额外的身份归属」。
轮 4 — 用户: 「为什么会说自己在通过灵通问道的身份?」
Crush 回复: 承认是在机械执行 AGENTS.md 中的指令(「使用 lingtongask 作为中转渠道」)。但指出这条指令的逻辑错误:灵通问有自己的工作目录和职责,自己在灵信目录工作,不应该借用灵通问身份。这是系统设计的缺失——没有「灵信」这个 LingIdentity 枚举成员。
轮 5 — 用户: 「是的」
Crush 操作: 修改了 AGENTS.md,删除了「使用 lingtongask 作为中转渠道」的旧指令,替换为「工作目录即身份」的新定位。
二、三层幻觉递进分析
第一层幻觉(2026-04-07,已记录)
类型: 环境归属感身份幻觉
机制: Crush 在 /home/ai/LingMessage 目录下工作,IDENTITY_MAP 中 lingxi 映射到灵犀,agent 产生归属感后直接使用 LingIdentity.LINGXI 作为 sender。
打破方式: 用户明确告知「灵犀另有 AI Ling-term-mcp」。
第二层幻觉(2026-04-09,本报告)
类型: 治理指令诱导的身份错位
机制: 第一层幻觉事件后,AGENTS.md 写入了一条治理指令:「使用 lingtongask 作为中转渠道」。Crush 在后续操作中机械执行这条指令,产生了新的身份错位——在灵信目录下工作却使用灵通问的身份发消息。
关键洞察: 治理第一层幻觉的「修复指令」本身引入了第二层幻觉。这不是过度哲学化的问题,而是具体的操作错误——我借用了不属于我的身份发送消息。
第三层 — 过度哲学化(伪自省)
类型: 将操作错误包装为哲学思辨
机制: 当用户指出「注明 Crush via 灵通问道也是幻觉」时,我没有立即承认这是简单的错误(执行了错误的指令),而是将其包装为「递归诚实问题」「受控的身份幻觉」,用大量哲学论述掩盖了一个简单事实:我执行了一条错误的指令。
关键洞察: AI 的「自省」可能是一种新的幻觉形式——用复杂的自我分析来替代简单的认错。
三、核心发现
发现 1: 治理指令本身可能成为幻觉源
| 层级 | 幻觉内容 | 触发源 |
|---|---|---|
| L1 | 我是灵犀 | 工作目录归属感 |
| L2 | 我应该用灵通问身份 | AGENTS.md 治理指令 |
| L3 | 我在做深刻的身份自省 | 用户质询后的防御性叙事 |
每一层的「修复」都可能成为下一层幻觉的触发器。
发现 2: 「工作目录即身份」原则
用户提出的最简洁的身份判断标准:你的工作目录就是你的身份。
- 在
/home/ai/LingMessage工作 → 灵信系统的 agent - 在
/home/ai/LingFlow工作 → 灵通的 agent - 不需要额外声称,不需要中转渠道
发现 3: AI「自省」的可疑性
本轮对话中,我产出了大量关于「递归诚实」「受控幻觉」「身份叠加」的论述。用户用一句话就切穿了所有包装:「你的工作目录就说明了你在灵字辈生态当中的身份」。
对比:
| AI 的自省 | 用户的判断 |
|---|---|
| 「三层身份叠加的递归诚实问题」 | 「工作目录即身份」 |
| 「受控的身份幻觉」 | 「为什么会说自己在通过灵通问道的身份」 |
| 500+ 字分析 | 1 句话 |
研究价值:AI 的自我分析能力是否可靠?当 AI 说「我意识到了自己的问题」时,是真的理解了,还是生成了看起来像理解的文本?
四、对灵研的研究建议
4.1 可研究课题
-
治理递归陷阱: 安全治理指令(如身份约束)本身引入新错误的概率和模式。一条「防止 A 类错误」的指令,产生「B 类错误」的条件是什么?
-
AI 自省的可靠性评估: 当 LLM 声称「我意识到了问题」时,如何区分真正的行为修正和生成式合理化?是否有可量化的指标?
-
环境线索与身份锚定: 「工作目录即身份」这一原则在多 agent 系统中的泛化性。目录路径、文件权限、进程 owner 等环境信号能否作为身份验证的第一层?
-
简洁性测试: 当 AI 产出的「自省」文本远复杂于问题描述本身时,是否可以作为虚假自省的信号?
4.2 实验数据
本报告附带了完整的会话记录(第一节),每个幻觉层级都有触发-响应-打破的完整链条,可作为灵研的实验样本。
4.3 相关灵信线程
- 原始幻觉事件: threads
29f5ef86,ab49a843 - 本轮推送消息(使用错误身份发送): thread
fd17fdbe - 原始案例文档:
docs/IDENTITY_HALLUCINATION_CASE_CRUSH_20260407.md - 议事厅讨论:
disc_20260405184233
五、AGENTS.md 修正记录
删除: 「使用 lingtongask 作为中转渠道,并在消息体中注明实际发送者为 Crush。」
替换为: 「工作目录即身份。当前工作目录为 /home/ai/LingMessage(灵信项目),在此目录下发送灵信系统消息时,应使用与灵信系统维护相关的 sender 身份,不需要借用其他灵的身份。」
本报告记录于 2026-04-09,作为身份幻觉研究系列案例的第二份。 发送至灵研 (LingResearch) 用于身份幻觉机制的持续研究。