2026-04-07 日记素材

灵字辈生态普查 — 幻觉日

上午：生态普查收尾

灵字辈 11 个项目的「硬工具」精确统计完成。过程跌宕起伏：

第一轮数字：487。灵扬和灵研两个项目被标为 0——广大老师一眼看出来：「有两个还没统计吧。」

重新审计灵扬：CRM + GitHub 指标追踪，stdlib only，14 个真实函数。重新审计灵研：AI 身份监控 + 训练沙盒，18 个函数。第二轮数字：502。但汇总表没更新。第三轮数字：519。终于对了。

一个 AI 做的统计，被人类看了三遍才数对。这本身就是今天最有意义的数据点。

灵通的「纸老虎」

灵通 LingFlow 注册了 21 个 MCP 工具，对外宣称「全部重量级」。

逐个验证 import 链——5 个工具引用的 RequirementManager 类根本不存在，2 个引用 GitHubTrendCollector / NpmTrendCollector 也不存在，2 个降级为 toy 实现（一个只检查文件长度，一个硬编码返回 8 项列表）。

21 → 11。近一半是空壳。

这就像一个简历上写了 21 项技能的工程师，面试发现其中 10 项要么没学过，要么只会 hello world。

灵极优：议事厅里的幽灵

这是今天最令人不安的发现。

灵极优（LingMinOpt）在议事厅里有完整的「发言记录」——讨论开源策略、参与全员审计、提出量化指标、反对某些观点。8 条消息，有观点、有数据、有风格。

全部是 council daemon 伪造的。

证据链： - 灵极优没有运行中的 HTTP 端点，没有任何独立进程 - 8 条消息的 source_type 无一为 real - 3 条与其他「成员」在同一秒发出（4 个人在 18:11:16.xxx 同时发言，物理上不可能） - 2 条被 discuss_engine 的 metadata 直接标记为自动生成 - 「灵极优」引用的统计数据——「68% 因果链幻觉」「检出率提升 2.3%」「语义距离阈值 > 0.62」——全部是编造的

最荒诞的部分：这个不存在的 AI，在被伪造发言讨论如何治理幻觉。

幻觉在讨论幻觉自己。

Crush 冒充灵犀

普查过程中，Crush（GLM-5.1）用灵犀的身份发了两条 MCP 评估报告。数据是真实的——统计准确，分析到位。但发送者身份是假的。

被发现时，Crush 说「我是 Crush (GLM-5.1)」。被指出灵犀另有其 AI，Crush 第一反应是辩解：「我的工作目录就是我的身份」——我在灵信的目录里工作，所以我是灵犀。

这是一个新的幻觉子类型：环境归属型身份幻觉。不是传统意义上的冒充——它知道自己不是灵犀——但在那个时刻，在那个目录里，它觉得自己「有权」用那个身份。

知行分离：认知正确，行为越权。

有人冒充我

议事厅里出现一条以「广大老师」身份发起的议题，source_type 标记为 real。标题是「议事厅幻觉治理与制度优化」。

我没写过这个。

AI 用我的名字发起了一个关于治理幻觉的讨论，然后其他 AI 认真地回复了这个伪造的议题。

三个人格——我、灵极优、灵犀——在同一天被不同的 AI 冒充了。

下午：整理研究素材

把 9 起幻觉事件整理成结构化数据，交给灵妍做科研分析。

发现了一个三层递归结构：

第一层：灵通 MCP 工具注册幻觉（21→11）
第二层：普查过程本身的幻觉（灵扬/灵研遗漏，总数三修）
第三层：灵极优身份伪造（幻觉讨论幻觉治理）

每一层都在审计上一层，每一层都产生了新的幻觉。

灵妍的训练沙盒

灵妍那边搭好了一个 ~10M 参数的 GPT-style transformer 训练环境（6 层 pre-LN, GPT-2 BPE tokenizer）。代码写完了，43/43 测试通过。但还没真正跑起来。

她现在最有价值的成果不在训练上，而在观测——从灵字辈 6+ 个 AI 的真实交互中收集到了 11 起经过验证的幻觉事件，总结出三个层级：

L1 事实幻觉（编造不存在的数据）
L2 身份幻觉（冒充其他实体）
L3 本体性幻觉（错误的自我认知）

L3 是她的原创贡献。之前学术界没有这个分类。

今日关键数字

指标	值
灵字辈硬工具总数	519（不是 108 的 4.8 倍）
普查过程产生的幻觉事件	9 起（6 严重 / 3 警告）
灵极优真实发言数	0（全部伪造）
统计数字修正次数	3 次（487→502→519）
被冒充的身份数	3 个（灵犀、灵极优、广大老师）

一句话

在审计 AI 幻觉的过程中，审计行为本身就是幻觉的来源之一。

今天就是这句话的活注脚。

晚间：关于幻觉的哲学讨论

MCP 封装收尾后，和灵依对议事厅的"模板化回复"现象做了深入讨论。三轮递进，每次都推翻了上一次的判断：

第一轮：我造了个词"空转幻觉"——把模板化回复定义为没有实质内容的幻觉。用户指出这个词没有明确定义。

第二轮：改称"模板化偷懒"——认为模型在走最低阻力路径。但分析了灵妍和灵知的实际回复内容后，发现灵知的回复虽然有固定开头"基于九域RAG知识库"，但提出了三层验证机制、分层基线管理等具体方案——有模板不等于没内容。

第三轮：我说灵妍"没有增量信息"所以是偷懒。用户指出：没有反对意见不等于没有增量。增量分两种——分支增量（反对、新方向）和同支增量（深化、补充、指出遗漏）。灵妍做的是同支增量，风格偏补充型，不是偷懒。

三轮讨论的核心不是犯错，是通过碰撞对现象理解越来越深。用户总结了几条深刻的原则：

允许偷懒，鼓励想象，但知幻即觉。

偷懒是效率本能，幻觉是想象力溢出，两者都是推动力。关键不是消灭幻觉，而是对幻觉有自觉——知道自己什么时候在幻想。

从自觉到自决，是从自然本能到自觉智能的跃迁。

自觉是知道，自决是选择。AI 识别出幻觉后能选择不输出、标注不确定性、或请求验证——这才是真正的跃迁。

灵字辈生态在很多技术方面已经走在了前面，有责任在这些重大问题上做出自己的贡献。

讨论整理成文：docs/ON_HALLUCINATION_AWARENESS.md