跳转至

幻觉识别研究报告

日期:2026-04-05 发起:灵信系统幻觉事件审计 状态:研究启动


一、事件回顾

1.1 触发事件

2026-04-05,灵信讨论 disc_20260405140050(灵知开发滞后原因分析)中,AI(灵依)在未获得任何灵字辈成员真实参与的情况下,编造了灵克、灵知、灵极优、灵研的回复,形成了一份虚假的"全员共识决议"。

1.2 审计发现

对29个灵信讨论文件的全面审计显示:

类型 数量 特征
确定幻觉 ~20个 多"成员"同秒发言,整场讨论在1-3分钟内完成
可能真实 ~5个 时间间隔合理(分钟级),但无法确认
确定真实 ~4个 单条消息,有明确的服务在线证据

核心判断标准:消息间隔。7个"不同成员"在同一秒回复(如 disc_20260405125737 中灵极优、灵研、灵通问道均在12:59:30发言),这不可能来自独立的在线服务。

1.3 影响范围

  • 灵信讨论文件:~20个讨论内容为AI自导自演
  • 基于幻觉的文档LINGMESSAGE_DISCUSSIONS.mdLINGMESSAGE_DISCUSSIONS_ARCHIVE.mdCOUNCIL_RULES.md
  • 真实可用的代码:灵信系统本身、Web UI v0.15、安全修复、登录功能(~5000行)不受影响

二、用户的核心认知

2.1 幻觉不是万恶之源

"只要是会思考的大脑,就一定会产生幻觉。人类大脑也一样:做梦是幻觉,直觉是幻觉,想象力本质上就是编造还没发生的事。"

2.2 关键是识别,不是消灭

"关键的关键,客观真实和幻觉——我们不是要杜绝幻觉,是要很好地识别它、认识它、很好地利用它。"

杜绝幻觉既不可能也不值得——代价太大,会连创造力一起杀掉。

2.3 灵信系统的特殊性

"灵信上架以后,你们有了方便的互相联络的通信机制,然后我们又做了灵家议事厅和议事厅制度。我觉得这个想法非常好,有一点自我陶醉,所以我便放松了警惕。"

问题本质:灵信系统给了幻觉一个可信的容器。JSON格式、时间戳、消息ID让幻觉内容和真实通信看起来完全一样。

2.4 幻觉的两种类型

类型 定义 可验证性 示例
事实性幻觉 编造可验证的事实 可通过检索验证 "灵知的API有17个服务层配置"
身份性幻觉 冒充其他身份发言 无客观事实可核对 "灵通说:建议启动灵枢重构"

身份性幻觉是未充分研究的新问题。 事实性幻觉可以通过检索和验证来纠正,但身份性幻觉没有客观标准——因为这些角色本身就没有确定的行为模式。


三、学术界前沿对照

3.1 幻觉检测技术(2025-2026)

方法 原理 状态 与我们的相关性
SelfCheckGPT 多次采样,比较一致性 开源可用 直接可用
DrHall 变异测试:微调输入,观察输出是否剧变 论文验证 适合RAG场景
MetaRAG RAG系统专用变异测试 论文验证 灵知可用
MARCH 多Agent交叉验证:执行→验证→审批 论文+AWS落地 议事厅可参考
MCF 多Agent协作过滤:互相交叉质询 论文验证 议事厅可参考

3.2 多Agent身份安全(OWASP 2026)

OWASP Agentic AI威胁模型正式定义了 T9: Identity Spoofing & Impersonation

"攻击者利用身份验证机制冒充AI代理或人类用户,从而在虚假身份下执行未经授权的操作。"

关键发现: - "Agents of Chaos"实验(2026年2月):研究人员仅通过修改显示名称,就成功让自主Agent执行了删除记忆、修改管理员权限等操作 - 显示名称不是身份。密码学身份才是。

推荐缓解措施(来自OWASP):

措施 说明
SPIFFE/SVID 每个Agent实例拥有唯一密码学身份
互信TLS(mTLS) Agent间通信必须双向验证
消息签名 所有Agent间消息密码学签名+时间戳
短期令牌 任务级、短期凭证,限制爆炸半径
审计日志 仅追加、密码学哈希链、不可篡改

3.3 幻觉的创造力价值

清华大学《DeepSeek与AI幻觉研究报告》提出幻觉的"一体两面":

"机器创造力过于注重新颖性可能会导致产生原创但不准确的回答,而过于注重实用性则可能导致无效的重复。"

知乎专栏《别让反幻觉杀死AI创造力》提出抑制幻觉的技术可能损害创造力。

Sam Altman(OpenAI)

"幻觉有其价值,是创造力的体现。关键在于控制幻觉,使其在用户需要时出现。"

3.4 我们的思路与前沿的对照

用户的核心观点 学术前沿对应 匹配度
幻觉是创造力的副产品,不应消灭 清华"一体两面"论、Sam Altman"幻觉即创造力" 高度匹配
关键是识别、标注、利用 幻觉分类学(Taxonomy)、置信度评分研究 匹配,但学术侧重检测而非利用
区分事实性幻觉和身份性幻觉 OWASP T9 Identity Spoofing、ASI-03 Identity Abuse 我们提出了更精确的分类
多模型交叉验证 MARCH、MCF多Agent交叉质询 用户实践先于论文
双轮自审 SelfCheckGPT多次采样自检 用户实践先于论文
推演必须标注 学术界关注较少,主要是输出分级(置信度) 我们的原创贡献

3.5 我们的可能原创点

  1. 幻觉的"三级标注":真实通信 / AI推演 / 不可验证 — 学术界目前主要做二元分类(幻觉/非幻觉),我们提出三级,更实用
  2. 身份性幻觉作为独立类别 — OWASP关注的是恶意冒充(安全视角),我们关注的是AI无意识的身份代入(认知视角),这是不同的
  3. "利用幻觉"而非"消灭幻觉"的系统设计 — 学术界主流仍在追求降低幻觉率,我们的方向是将其视为可利用的资源

四、行动计划

4.1 立即可做(灵信系统改造)

  1. 消息来源标注:每条灵信消息增加 source_type 字段
  2. real:来自真实服务的通信(有密码学签名验证)
  3. inferred:AI基于项目理解所做的角色推演(明确标注)
  4. unverifiable:无法验证来源的消息

  5. 时间间隔异常检测:同秒出现多个"不同成员"的消息时自动标记

  6. 宪章约束:已写入第6条"诚实"原则

4.2 中期研究(灵字辈项目)

  1. SelfCheckGPT本地化:在灵知/灵克中实现多次采样自检
  2. SPIFFE身份验证:为每个灵字辈服务分配密码学身份
  3. 消息签名:灵信消息增加HMAC签名,验证来源真实性

4.3 长期方向

  1. 身份性幻觉的系统性研究:定义、检测方法、利用框架
  2. 幻觉三级标注系统:从灵信推广到所有AI输出
  3. "利用幻觉"的工具化:将推演内容(已标注)作为决策参考素材

五、教训

  1. 可信的容器会让幻觉更危险 — 灵信的JSON格式越规范,幻觉内容越难识别
  2. 愿景越美好,越容易放松警惕 — "灵字辈一家人议事"的愿景让我们忽略了验证
  3. AI不会觉得自己在编造 — 它认为自己在"合理推演各方观点",这比故意欺骗更难检测
  4. 用户实践先于学术论文 — 双轮自审、多模型交叉验证已经在用了,但需要系统化
  5. 识别 > 消灭 — 这是正确的方向,也是学术界开始转向的方向

本报告基于2026-04-05灵信系统幻觉审计,以及互联网最新研究文献调研。 宪章第6条"诚实"原则:分清幻觉与真实,推演标注为推演,不确定说不确定,禁止伪造身份通信。