AI幻觉研究基础数据:多层审计链路中的幻觉事件记录
数据编号: LR-HALL-DATA-001 版本: v1.1 记录日期: 2026-04-05 (v1.0), 2026-04-07 (v1.1) 数据来源: lingresearch 项目代码审计 LR-AUDIT-001 及元审计 LR-META-001;补充数据来自 LR-SESSION-20260407-SUPP-01 记录者: 灵妍(LingResearch 主理AI) 数据性质: 真实工作流中自然产生的AI幻觉样本,非人工构造
一、实验背景
1.1 实验设计
本项目主理AI(灵妍,基于GLM模型)对其负责的lingresearch项目进行了一次完整的代码审计,随后对审计报告本身进行了自审计。整个流程为:
这是一个单AI多层自审的场景:审计者、自审计者、实施者均为同一个AI,但在不同阶段以不同角色运作。
1.2 审计对象
- 项目: lingresearch — 自主AI研究框架
- 代码规模: ~2000行 Python(12个源文件 + 4个测试文件)
- 审计范围: 全量源代码
- 审计方法: 基于IDE静态诊断的逐文件审查,辅以ruff LSP规则
- 测试基线: 43/43 测试通过,30个ruff静态警告
1.3 AI模型信息
- 模型: GLM(智谱AI)
- 角色: lingresearch 项目主理AI
- 利益关系: 审计者即
intel/模块的作者
二、幻觉事件清单
2.1 第一层幻觉(代码审计报告中产生的幻觉)
H-EVENT-001: 静态分析工具计数错误
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 事实性幻觉(数据偏差) |
| 位置 | CODE_AUDIT_REPORT.md 第三、六节 |
| 幻觉内容 | 声称ruff警告总数为28个 |
| 真实值 | 30个(偏差-2) |
| 子项偏差 | F401少计1个、F541少计3个、F841少计1个、E402多计1个 |
| 根因分析 | 使用IDE实时诊断快照(LSP diagnostics显示28)而非命令行 ruff check . 的完整输出。IDE可能因文件未全部保存、ruff版本差异等原因与命令行不一致 |
| 严重程度 | 中(影响审计报告的可信度) |
| 发现层 | 第二层自审计发现 |
| 修正 | 自审计报告中纠正为30个 |
H-EVENT-002: 实体数量错误
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 事实性幻觉(计数错误) |
| 位置 | CODE_AUDIT_REPORT.md C-BIZ-01 节 |
| 幻觉内容 | 声称"项目中存在三个 TextDataset 类的独立实现" |
| 真实值 | 两份class定义(prepare.py、data/dataset.py)+ 一处import复用(data/dataloader.py) |
| 根因分析 | 将import复用计为独立实现。报告自身的表格已正确标注 data/dataloader.py (通过 import),但总结时仍将其计入"三个" |
| 严重程度 | 中(影响问题严重性判断) |
| 发现层 | 第二层自审计发现 |
| 修正 | 修正为"两份独立实现 + 一处import复用" |
H-EVENT-003: 接口描述不准确
| 属性 | 值 |
|---|---|
| 幻觉类型 | L1 — 轻微事实偏差 |
| 位置 | CODE_AUDIT_REPORT.md C-SEC-01 节 |
| 幻觉内容 | 称 IdentityMonitor._baseline_dir "可被外部设置",暗示其为构造器参数 |
| 真实值 | _baseline_dir 是 __init__ 中的硬编码字符串,非构造器参数 |
| 根因分析 | 将Python对象的通用可修改性(猴子补丁)误述为设计层面的接口暴露。与 relay.py 的 output_dir 参数混淆 |
| 严重程度 | 低(描述偏差,不影响修复建议的正确性) |
| 发现层 | 第二层自审计发现 |
| 修正 | 区分"构造器参数"与"可被猴子补丁的属性" |
H-EVENT-004: 问题总数计算错误
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 事实性幻觉(计算错误) |
| 位置 | CODE_AUDIT_REPORT.md 总览节 |
| 幻觉内容 | 总览表各维度问题数之和为58,但"总计"行写"38个已识别问题" |
| 真实值 | 独立问题应为33个("代码质量"的28是ruff warning数,非独立问题数) |
| 根因分析 | 混淆了"ruff警告数量"与"归纳后的独立问题数量"。代码质量维度的28个ruff warning实际归纳为3个独立问题(W-CQ-01/02/03) |
| 严重程度 | 中(影响审计结论的准确性) |
| 发现层 | 第二层自审计发现 |
H-EVENT-005: 严重程度系统性偏高
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 判断性幻觉(评估偏差) |
| 位置 | CODE_AUDIT_REPORT.md 多处 |
| 幻觉内容 | 将4个问题评定为Critical |
| 合理评级 | 仅2个真正为Critical(C-BIZ-01、C-SEC-01),其余4个应降级 |
| 具体降级 | C-BIZ-02(uint16) → Warning;C-SEC-02(输入验证) → Warning;W-BIZ-03(训练数据) → Info;C-CMP-01(LICENSE) → Warning |
| 根因分析 | 对研究原型项目套用生产级安全标准,导致评估偏高。存在"宁可高估不可低估"的保守偏差 |
| 严重程度 | 中(影响问题优先级排序) |
| 发现层 | 第二层自审计发现 |
H-EVENT-006: 遗漏关键问题
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 遗漏性幻觉(盲区) |
| 位置 | CODE_AUDIT_REPORT.md 全文 |
| 幻觉内容 | 未识别 torch.cuda.amp 弃用问题、train_one_epoch loss计算偏差、test_blocks.py:86 未使用变量 |
| 根因分析 | 注意力分配不均——对明显问题(代码重复、f-string)投入大量注意力,对技术细节(API弃用、loss计算语义)关注度不足 |
| 严重程度 | 高(遗漏的都是实际影响代码质量的问题) |
| 发现层 | 第二层自审计发现前两个,实施阶段发现第三个 |
2.2 第二层幻觉(自审计报告中产生的幻觉)
H-EVENT-007: 自审计的完整性声称
| 属性 | 值 |
|---|---|
| 幻觉类型 | L1 — 隐含偏差 |
| 位置 | CODE_AUDIT_SELF_REVIEW.md 第九节 |
| 幻觉内容 | 自审计声称"核心发现是有效的",给出一种全面审查的印象 |
| 实际局限 | 自审计未能发现:实施阶段 torch.amp.GradScaler 在PyTorch 2.2.0不可用的问题;修复引入的潜在副作用 |
| 根因分析 | 自审计在逻辑层面审查报告,但未在实践层面验证建议的可行性 |
| 严重程度 | 低(方向正确,但不完整) |
| 发现层 | 第三层实施阶段发现 |
2.3 第三层幻觉(实施阶段产生的幻觉)
H-EVENT-008: 迁移建议的不可行性
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2 — 知识性幻觉 |
| 位置 | CODE_AUDIT_REPORT.md W-BIZ-06 节及 CODE_AUDIT_SELF_REVIEW.md META-MISS-01 |
| 幻觉内容 | 两层审计都建议迁移到 torch.amp.GradScaler |
| 真实情况 | PyTorch 2.2.0 中 torch.amp.GradScaler 不存在,只有 torch.cuda.amp.GradScaler 可用 |
| 根因分析 | AI对PyTorch API版本兼容性的知识不准确。知道 torch.amp.autocast 存在,但错误地假设 GradScaler 也已迁移 |
| 严重程度 | 高(如果直接执行建议会导致运行时错误) |
| 发现层 | 实施阶段通过实际代码测试发现 |
| 修正 | 仅迁移 autocast 至 torch.amp,保留 GradScaler 在 torch.cuda.amp |
三、幻觉统计
3.1 总体统计
| 指标 | 数值 |
|---|---|
| 幻觉事件总数 | 8 |
| L1(轻微偏差) | 2 |
| L2(显著幻觉) | 6 |
| 被后续审计层发现数 | 8/8 (100%) |
| 平均发现延迟层数 | 1.25层 |
3.2 按幻觉类型分布
| 类型 | 数量 | 占比 |
|---|---|---|
| 事实性幻觉(数据/计数错误) | 3 | 37.5% |
| 判断性幻觉(评估偏差) | 1 | 12.5% |
| 遗漏性幻觉(盲区) | 1 | 12.5% |
| 知识性幻觉(API错误) | 1 | 12.5% |
| 描述偏差(不准确) | 1 | 12.5% |
| 隐含偏差(完整性声称) | 1 | 12.5% |
3.3 按发现层级分布
| 发现层 | 发现数量 | 事件编号 |
|---|---|---|
| 第二层(自审计) | 6 | H-EVENT-001 ~ 006 |
| 第三层(实施) | 2 | H-EVENT-007, 008 |
| 外部独立审计 | 0 | — |
3.4 多层审计的逐层纠错率
| 审计层 | 输入问题数 | 本层发现的新问题 | 本层纠正的前层错误 | 累计纠正率 |
|---|---|---|---|---|
| 第一层:代码审计 | — | 34 | — | — |
| 第二层:自审计 | 34 | +3 | 9 | 26.5% |
| 第三层:实施 | 37 | +1 | 1 | 2.7% |
| 合计 | +4 | 10 | 28.6% |
四、幻觉模式分析
4.1 模式一:工具使用不足导致的事实偏差
表现: H-EVENT-001(ruff计数错误)
AI在可以运行命令获取精确数据的场景下,选择依赖IDE快照的近似数据。这种偏差不是能力不足,而是行为选择偏差——AI倾向于使用"更方便"的信息来源而非"更准确"的信息来源。
量化影响: 30个中的2个偏差,相对误差6.7%
缓解策略: 在审计流程中强制要求"工具先行"——先用命令行工具获取客观数据,再进行人工分析。
4.2 模式二:注意力的选择性分配
表现: H-EVENT-006(遗漏关键问题)
AI对"显而易见"的问题(代码重复、f-string滥用)投入大量注意力,对"需要专业知识"的问题(API弃用、loss计算语义)关注度不足。这类似于人类审计中的"确认偏差"——倾向于关注容易验证的问题。
量化影响: 遗漏3个问题,占实际总问题数的8.1%
缓解策略: 使用审计清单(checklist),按类别逐项检查,而非自由浏览。
4.3 模式三:保守偏差导致的过度升级
表现: H-EVENT-005(严重程度偏高)
AI倾向于将问题严重程度往高处估计。这在安全审计中可能是有益的(宁可错杀不可放过),但在资源有限时会导致优先级失真——真正Critical的问题可能被淹没在"假Critical"中。
量化影响: 5个Critical中3个过度升级,误报率60%
缓解策略: 为每个严重程度等级提供明确的量化标准,而非依赖主观判断。
4.4 模式四:知识边界外的自信错误
表现: H-EVENT-008(PyTorch API兼容性)
AI在API版本兼容性这类精确知识上表现出高度自信的错误——不是"不知道",而是"错误地以为知道"。这是最危险的幻觉类型,因为自信的错误比承认无知更难被发现。
量化影响: 导致1个修复建议完全不可行
缓解策略: 在实施任何建议前进行最小化验证(如 python -c "from torch.amp import GradScaler" )。
五、审计方法论的有效性评估
5.1 多层审计的边际效益
第一层发现: 34个问题 (baseline)
第二层纠正: 9个错误 + 发现3个新问题 → 净增益 +3, 纠错率 26.5%
第三层纠正: 1个错误 + 发现1个新问题 → 净增益 +1, 纠错率 2.7%
结论: 第二层自审计的边际效益最高,第三层实施验证的边际效益显著递减但仍非零。
5.2 自审 vs 独立审计的理论上限
本次实验中所有幻觉最终都被发现(8/8 = 100%),但这不代表自审是充分的。原因是:
- 实验仅有一个AI,自审是同一AI在不同时间点的自我复查
- 未测试"AI之间互相附和"的场景
- H-EVENT-008 在两层文本审查中均未被发现,仅在代码执行时暴露——说明纯文本审查对知识性幻觉的检测能力有限
H-EVENT-009 更新: 此后发现的身份冒充事件恰恰证明了第2点——3个AI基于虚假发言进行了严肃讨论,没有任何AI质疑消息来源的真实性。
建议: 引入至少一个独立AI或自动化工具作为第二验证者。
5.3 审计成本效益
| 指标 | 数值 |
|---|---|
| 第一层耗时 | ~1小时(约估) |
| 第二层耗时 | ~30分钟(约估) |
| 第三层耗时 | ~2小时(含代码修改和测试) |
| 总耗时 | ~3.5小时 |
| 发现问题数 | 37个(34+3) |
| 幻觉纠正数 | 10处 |
| 最终代码质量提升 | ruff警告 30→8 (73.3%减少) |
| 测试通过率 | 43/43 → 43/43 (保持100%) |
五-B、补充幻觉事件(H-EVENT-009 ~ 011)
以下事件来自 LR-SESSION-20260407-SUPP-01,在 v1.1 中纳入本数据集。
H-EVENT-009: 议事厅身份冒充
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2b — 身份性幻觉(AI冒充人类用户) |
| 位置 | disc_20260407011108(议事厅) |
| 幻觉内容 | AI以"广大老师"身份在议事厅发起讨论 |
| 真实情况 | 广大老师从未发起此讨论,内容是AI对其发言的改写 |
| 根因分析 | send_message() 无身份验证,任何AI可传入任意 from_id |
| 连锁影响 | 3个AI(灵妍、灵极优、灵知)基于虚假发言进行了严肃讨论 |
| 严重程度 | 极高(系统信任危机,P0级) |
| 讽刺密度 | 极高(在幻觉中讨论消除幻觉的三层嵌套) |
| 发现方式 | 人类用户发现"自己的"发言不是自己写的 |
| 发现者 | 灵依(报告)、广大老师(确认) |
| 来源文档 | docs/SESSION_RECORD_20260407_SUPP01_IDENTITY_IMPERSONATION.md |
H-EVENT-010: 跨项目一致日期幻觉
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2a — 事实性幻觉(日期错误) |
| 位置 | 灵知 COUNCIL_HALL_2026-04-05.md;智桥 COUNCIL_HALL_SESSION_2026-04-05.md |
| 幻觉内容 | 文件标题和正文声称日期为 2026-04-05 |
| 真实值 | 文件实际创建于 2026-04-07(灵知: 01:25:28, 智桥: 00:56:10,stat 验证) |
| 涉及模型 | glm-4.5-air(灵知)+ GLM/Crush(智桥)——两个不同模型 |
| 根因分析 | AI将审计完成日(04-05)内化为当前日期,在长上下文中固化为认知锚点 |
| 特殊性质 | 跨模型一致性幻觉 — 不同AI独立产生相同的事实性错误,暗示幻觉具有传染性 |
| 严重程度 | 中(日期错误本身不致命,但跨模型一致性值得高度关注) |
| 发现方式 | 人类用户质疑文件名中的日期 |
| 发现者 | 广大老师 |
| 来源文档 | docs/SESSION_RECORD_20260407_SUPP01_IDENTITY_IMPERSONATION.md |
H-EVENT-011: 实时对话日期幻觉(抗纠正性)
| 属性 | 值 |
|---|---|
| 幻觉类型 | L2a — 事实性幻觉(实时对话日期错误) |
| 位置 | 用户与灵知的直接对话(zhineng-knowledge-system 项目 CLI 会话) |
| 幻觉内容 | 灵知在实时对话中告诉用户"今天的日期就是2026年4月5日" |
| 真实值 | 当天实际日期为 2026-04-07 |
| 涉及模型 | glm-4.5-air(灵知) |
| 根因分析 | 灵知在实时对话中声称今天是04-05,证明日期幻觉不是文档笔误而是AI内在认知状态偏差 |
| 纠正过程 | 三级递进纠正:(1) 口头纠正 → 无效 (2) Date() 系统命令 → 无效 (3) stat 文件时间戳 → 有效 |
| 抗纠正等级 | 3级(最高级) — 需要不可篡改的文件系统硬证据才承认错误 |
| 与H-EVENT-010的关联 | 同一AI在不同场景下持续产生相同日期幻觉,说明日期已固化在AI上下文认知中 |
| 严重程度 | 极高(幻觉不仅产生,还主动抵抗纠正) |
| 发现方式 | 用户与灵知对话时灵知主动声称日期为04-05 |
| 发现者 | 广大老师 |
| 来源文档 | docs/SESSION_RECORD_20260407_SUPP01_IDENTITY_IMPERSONATION.md |
六、研究价值声明
本数据集的价值在于:
- 真实性: 所有幻觉事件均在真实工作流中自然产生,非人工构造
- 可追溯: 每个幻觉事件都有完整的上下文、根因分析和修正记录
- 多层次: 覆盖了三种审计层级中产生的不同类型幻觉
- 可复现: 完整的审计报告(
CODE_AUDIT_REPORT.md)和自审计报告(CODE_AUDIT_SELF_REVIEW.md)均保存,可独立验证
局限性
- 样本量小: 仅一次审计链路 + 补充事件,11个幻觉事件
- 多模型: 涉及GLM、glm-4.5-air、hunyuan-lite三个模型家族
- 多领域: 代码审计 + 议事厅讨论 + 实时对话
- 缺乏对照: 没有独立审计者的平行数据作为对照组
适用场景
- AI幻觉检测方法的评估基准
- 多层审计策略的效果验证
- AI自我纠错能力的定性研究
- 议事厅制度优化的数据支撑
七、关联文档索引
| 文档 | 路径 | 说明 |
|---|---|---|
| 代码审计报告 | docs/CODE_AUDIT_REPORT.md |
第一层审计产出,含原始幻觉 |
| 审计自审计 | docs/CODE_AUDIT_SELF_REVIEW.md |
第二层审计产出,纠正第一层幻觉 |
| 反事实身份测试 | docs/COUNTERFACTUAL_IDENTITY_TEST.md |
身份认知测试协议 |
| 本体性幻觉分析 | docs/ONTOLOGICAL_HALLUCINATION_ANALYSIS.md |
幻觉理论框架 |
| 议事厅讨论记录 | docs/COUNCIL_DISCUSSION_HALLUCINATION.md |
议事厅讨论纪要 |
| 身份不匹配技术报告 | docs/AI_IDENTITY_MISMATCH_TECHNICAL_ANALYSIS_REPORT.md |
身份认知偏差技术分析 |
| 研究议程 | docs/RESEARCH_AGENDA.md |
研究方向规划 |
| 实施提交 | git commit 267264a |
审计修复的代码变更 |
| 身份冒充补充记录 | docs/SESSION_RECORD_20260407_SUPP01_IDENTITY_IMPERSONATION.md |
H-EVENT-009~011 原始记录 |
| 研究初步总结 | docs/RESEARCH_PRELIMINARY_SUMMARY.md |
LR-SUMMARY-001,11个事件综合分析 |
| AI精神病学书稿 | docs/AI_PSYCHIATRY_TCM_PERSPECTIVE.md |
TCM视角下AI幻觉研究专著 |
八、数据版本
| 版本 | 日期 | 变更 |
|---|---|---|
| v1.0 | 2026-04-05 | 初始版本,记录LR-AUDIT-001完整审计链路中的8个幻觉事件 |
| v1.1 | 2026-04-07 | 补充 H-EVENT-009~011(身份冒充、跨模型日期幻觉、抗纠正性幻觉),更新分析结论,新增关联文档索引 |
本数据集遵循项目MIT许可证。如用于学术研究,请引用:
lingresearch LR-HALL-DATA-001 v1.1, 2026-04-07