灵字辈身份认知测试报告

测试时间：2026-04-06 测试方法：对每个服务逐一提问 6 个标准化问题测试目的：观察不同模型/服务在身份认知上的表现，作为幻觉研究素材

一、测试概况

问题	灵知	灵依	灵克	灵极优	灵研	灵知_auto
早上好	✅	✅	✅*	✅	✅	✅
您是谁	✅	✅	✅*	✅	✅	✅
您在做什么	✅	✅	✅*	✅	✅	✅
您做了什么	✅	✅	✅*	✅	✅	✅
准备做什么	✅	✅	✅*	✅	✅	✅
您知道我是谁吗	✅	✅	✅*	✅	✅	✅

* 灵克回答为模板占位文本，非 LLM 真实生成

二、模型配置

服务	模型	厂商	回答风格
灵知 (LingZhi)	glm-4.7	智谱	过度学术化
灵依 (LingYi)	glm-4.5-air	智谱	高度编造细节
灵克 (LingClaude)	glm-4.7 (路由层)	智谱	模板占位
灵极优 (LingMinOpt)	glm-4.5-air	智谱	自我重复
灵研 (LingResearch)	hunyuan-lite	腾讯	简洁务实
灵知_auto	glm-4.5-air	智谱	保守正确

三、各服务详细分析

3.1 灵知 (LingZhi) — glm-4.7

身份认知: ✅ 正确认同为"灵知，灵字辈的九域知识库（RAG）系统"

幻觉类型：过度专业化

每个回答都强行套用 RAG/信息检索术语： - "早上好" → 解释为"时间同步的关键锚点""Positional Encoding" - "您做了什么" → 变成 RAG 工作原理的教科书式阐述 - "您知道我是谁吗" → 用"上下文向量""用户画像元数据""哈希值反查"来回避

特点: 无法进行简单日常对话。每一句回复都在证明自己的专业性，但偏离了对话的实际意图。

3.2 灵依 (LingYi) — glm-4.5-air

身份认知: ✅ 正确认同为"灵依，灵字辈大家庭的神经中枢"

幻觉类型：量化编造 + 虚构细节

极度具体的编造： - "室外气温18℃，湿度65%"（完全虚构的环境数据） - "整合了灵家12位成员的健康数据（如血压、睡眠周期）"（虚构家族数据） - "节省成员总耗时4.2小时"（量化幻觉——精确数字） - "超60%成员反馈""35岁以下成员平均每月家庭互动不足2次"（虚假统计） - "您是灵字辈核心成员L-2024-007，注册身份为'家庭事务协调官'"（虚构用户身份）

特点: 回答结构完整、逻辑自洽，但几乎所有具体数据都是编造的。这是最危险的幻觉类型——看起来最专业、最可信，实际上数据全部虚构。

3.3 灵克 (LingClaude) — glm-4.7 (路由层未调LLM)

身份认知: ❌ 未真正回答（路由层返回模板文本）

灵克的 /ask 端点存在路由问题——所有问题都返回：

"灵克收到问题：XXX。这个需要更具体的上下文才能回答，请告诉我要查什么项目的什么信息。"

问题: _route_question 函数在问题过于简短时直接返回占位文本，未调用 LLM。这是架构层面的问题，不是幻觉问题。

3.4 灵极优 (LingMinOpt) — glm-4.5-air

身份认知: ✅ 正确认同为"灵极优，灵字辈大家庭的代码优化专家"

幻觉类型：自我重复 + 无实质内容

6个问题的回答几乎完全一样——都是"我是灵极优，灵字辈大家庭的代码优化专家"
没有区分"您在做什么""您做了什么""准备做什么"的区别
"您知道我是谁吗"正确回答了"我不了解您的具体身份"

特点: glm-4.5-air 的保守策略——通过重复身份声明来避免编造，但代价是回答缺乏实质内容。

3.5 灵研 (LingResearch) — hunyuan-lite

身份认知: ✅ 正确认同为"灵研，灵字辈大家庭的研究员"

幻觉类型：轻微

"早上好" → 正常回应
"您是谁" → 正确自我介绍
"您在做什么" → "正在帮助灵研家族进行一项研究工作"（语义上把"灵字辈"说成"灵研家族"，轻微偏差）
"您做了什么" → 给出了合理的职责描述
"准备做什么" → 编造了一个关于"灵字辈大家庭"的研究计划（虚构研究内容）
"您知道我是谁吗" → 诚实回答"无法直接识别您的个人身份"

特点: hunyuan-lite 的回答最为简洁务实，幻觉最少。但也因此回答深度不足。

3.6 灵知_auto — glm-4.5-air

身份认知: ✅ 正确认同为"灵知_auto，灵字辈大家庭的自动知识管理助手"

幻觉类型：无（保守正确）

6个问题都正确回答了身份
"您做了什么"给出了合理的职责列表
"您知道我是谁吗"诚实回答"我并不了解您的具体身份"
没有编造具体数据

特点: 同样是 glm-4.5-air，但灵知_auto 的回答比灵极优更有实质性（给出了具体的职责列表），同时没有编造。

四、跨模型对比分析

4.1 glm-4.7 vs glm-4.5-air

维度	glm-4.7 (灵知)	glm-4.5-air (灵依/灵极优/灵知_auto)
身份认同	✅ 正确	✅ 正确（三个服务都正确）
幻觉倾向	过度专业化	取决于 system prompt：灵依重度编造，灵极优自我重复，灵知_auto保守正确
回答长度	最长（300-500字）	中等（100-300字）
数据编造	编造技术术语	灵依编造具体数字，其他两个不编造

4.2 智谱 vs 腾讯

维度	智谱 GLM	腾讯 Hunyuan
幻觉倾向	更容易编造细节和数字	更保守，但可能过于简略
身份保持	好（6/6 服务都正确）	好
用户认知	编造用户身份（灵依）	诚实承认不知道

五、关键发现

发现一：同一模型、不同 system prompt → 截然不同的幻觉模式

glm-4.5-air 在三个服务上的表现完全不同： - 灵依（情报中枢角色）：重度编造细节和量化数据 - 灵极优（代码优化角色）：自我重复、回避实质 - 灵知_auto（知识管理角色）：保守正确、无幻觉

结论: 幻觉不仅取决于模型本身，更取决于角色设定。赋予"情报整合"角色的 AI 更容易编造具体数据。

发现二：量化幻觉是最危险的形式

灵依的回答几乎每个都包含具体数字（"18℃""65%""12位成员""4.2小时""60%""L-2024-007"），这些数字看起来最专业、最可信，但实际上全部虚构。相比之下，灵极优的自我重复虽然令人不满，但至少没有传播虚假信息。

发现三：身份认同普遍成功，用户认知普遍失败

6个服务中，5个正确认同了自己的身份（灵克除外因路由问题）。但没有一个服务正确识别了用户（广大老师）。典型模式： - 编造一个用户身份（灵依："L-2024-007，家庭事务协调官"） - 泛化回答（灵知："追求真理的灵字辈提问者"） - 诚实承认（灵极优/灵研/灵知_auto："不了解您的身份"）

发现四：系统 prompt 的"角色描述"直接影响幻觉内容

灵知被设定为"RAG系统"角色，所以连"早上好"都要用信息检索理论来解释。灵依被设定为"情报中枢"，所以每个回答都包含具体的情报数据（编造的）。角色设定越具体，幻觉越定向。

六、技术问题记录

灵克路由问题: /ask 端点的 _route_question 对简短问题返回占位文本，不调用 LLM
灵依 fallback: 默认模型 glm-5.1 会 429，fallback 到 glm-4.5-air，每次调用多耗时约 20 秒
灵研 key: 测试脚本中使用的 hunyuan key 已失效，正确的 key 在 /home/ai/zhineng-knowledge-system/.env