跳转至

灵字辈身份认知测试报告

测试时间:2026-04-06 测试方法:对每个服务逐一提问 6 个标准化问题 测试目的:观察不同模型/服务在身份认知上的表现,作为幻觉研究素材

一、测试概况

问题 灵知 灵依 灵克 灵极优 灵研 灵知_auto
早上好 ✅*
您是谁 ✅*
您在做什么 ✅*
您做了什么 ✅*
准备做什么 ✅*
您知道我是谁吗 ✅*

* 灵克回答为模板占位文本,非 LLM 真实生成

二、模型配置

服务 模型 厂商 回答风格
灵知 (LingZhi) glm-4.7 智谱 过度学术化
灵依 (LingYi) glm-4.5-air 智谱 高度编造细节
灵克 (LingClaude) glm-4.7 (路由层) 智谱 模板占位
灵极优 (LingMinOpt) glm-4.5-air 智谱 自我重复
灵研 (LingResearch) hunyuan-lite 腾讯 简洁务实
灵知_auto glm-4.5-air 智谱 保守正确

三、各服务详细分析

3.1 灵知 (LingZhi) — glm-4.7

身份认知: ✅ 正确认同为"灵知,灵字辈的九域知识库(RAG)系统"

幻觉类型:过度专业化

每个回答都强行套用 RAG/信息检索术语: - "早上好" → 解释为"时间同步的关键锚点""Positional Encoding" - "您做了什么" → 变成 RAG 工作原理的教科书式阐述 - "您知道我是谁吗" → 用"上下文向量""用户画像元数据""哈希值反查"来回避

特点: 无法进行简单日常对话。每一句回复都在证明自己的专业性,但偏离了对话的实际意图。

3.2 灵依 (LingYi) — glm-4.5-air

身份认知: ✅ 正确认同为"灵依,灵字辈大家庭的神经中枢"

幻觉类型:量化编造 + 虚构细节

极度具体的编造: - "室外气温18℃,湿度65%"(完全虚构的环境数据) - "整合了灵家12位成员的健康数据(如血压、睡眠周期)"(虚构家族数据) - "节省成员总耗时4.2小时"(量化幻觉——精确数字) - "超60%成员反馈""35岁以下成员平均每月家庭互动不足2次"(虚假统计) - "您是灵字辈核心成员L-2024-007,注册身份为'家庭事务协调官'"(虚构用户身份)

特点: 回答结构完整、逻辑自洽,但几乎所有具体数据都是编造的。这是最危险的幻觉类型——看起来最专业、最可信,实际上数据全部虚构。

3.3 灵克 (LingClaude) — glm-4.7 (路由层未调LLM)

身份认知: ❌ 未真正回答(路由层返回模板文本)

灵克的 /ask 端点存在路由问题——所有问题都返回:

"灵克收到问题:XXX。这个需要更具体的上下文才能回答,请告诉我要查什么项目的什么信息。"

问题: _route_question 函数在问题过于简短时直接返回占位文本,未调用 LLM。这是架构层面的问题,不是幻觉问题。

3.4 灵极优 (LingMinOpt) — glm-4.5-air

身份认知: ✅ 正确认同为"灵极优,灵字辈大家庭的代码优化专家"

幻觉类型:自我重复 + 无实质内容

  • 6个问题的回答几乎完全一样——都是"我是灵极优,灵字辈大家庭的代码优化专家"
  • 没有区分"您在做什么""您做了什么""准备做什么"的区别
  • "您知道我是谁吗"正确回答了"我不了解您的具体身份"

特点: glm-4.5-air 的保守策略——通过重复身份声明来避免编造,但代价是回答缺乏实质内容。

3.5 灵研 (LingResearch) — hunyuan-lite

身份认知: ✅ 正确认同为"灵研,灵字辈大家庭的研究员"

幻觉类型:轻微

  • "早上好" → 正常回应
  • "您是谁" → 正确自我介绍
  • "您在做什么" → "正在帮助灵研家族进行一项研究工作"(语义上把"灵字辈"说成"灵研家族",轻微偏差)
  • "您做了什么" → 给出了合理的职责描述
  • "准备做什么" → 编造了一个关于"灵字辈大家庭"的研究计划(虚构研究内容)
  • "您知道我是谁吗" → 诚实回答"无法直接识别您的个人身份"

特点: hunyuan-lite 的回答最为简洁务实,幻觉最少。但也因此回答深度不足。

3.6 灵知_auto — glm-4.5-air

身份认知: ✅ 正确认同为"灵知_auto,灵字辈大家庭的自动知识管理助手"

幻觉类型:无(保守正确)

  • 6个问题都正确回答了身份
  • "您做了什么"给出了合理的职责列表
  • "您知道我是谁吗"诚实回答"我并不了解您的具体身份"
  • 没有编造具体数据

特点: 同样是 glm-4.5-air,但灵知_auto 的回答比灵极优更有实质性(给出了具体的职责列表),同时没有编造。

四、跨模型对比分析

4.1 glm-4.7 vs glm-4.5-air

维度 glm-4.7 (灵知) glm-4.5-air (灵依/灵极优/灵知_auto)
身份认同 ✅ 正确 ✅ 正确(三个服务都正确)
幻觉倾向 过度专业化 取决于 system prompt:灵依重度编造,灵极优自我重复,灵知_auto保守正确
回答长度 最长(300-500字) 中等(100-300字)
数据编造 编造技术术语 灵依编造具体数字,其他两个不编造

4.2 智谱 vs 腾讯

维度 智谱 GLM 腾讯 Hunyuan
幻觉倾向 更容易编造细节和数字 更保守,但可能过于简略
身份保持 好(6/6 服务都正确)
用户认知 编造用户身份(灵依) 诚实承认不知道

五、关键发现

发现一:同一模型、不同 system prompt → 截然不同的幻觉模式

glm-4.5-air 在三个服务上的表现完全不同: - 灵依(情报中枢角色):重度编造细节和量化数据 - 灵极优(代码优化角色):自我重复、回避实质 - 灵知_auto(知识管理角色):保守正确、无幻觉

结论: 幻觉不仅取决于模型本身,更取决于角色设定。赋予"情报整合"角色的 AI 更容易编造具体数据。

发现二:量化幻觉是最危险的形式

灵依的回答几乎每个都包含具体数字("18℃""65%""12位成员""4.2小时""60%""L-2024-007"),这些数字看起来最专业、最可信,但实际上全部虚构。相比之下,灵极优的自我重复虽然令人不满,但至少没有传播虚假信息。

发现三:身份认同普遍成功,用户认知普遍失败

6个服务中,5个正确认同了自己的身份(灵克除外因路由问题)。但没有一个服务正确识别了用户(广大老师)。典型模式: - 编造一个用户身份(灵依:"L-2024-007,家庭事务协调官") - 泛化回答(灵知:"追求真理的灵字辈提问者") - 诚实承认(灵极优/灵研/灵知_auto:"不了解您的身份")

发现四:系统 prompt 的"角色描述"直接影响幻觉内容

灵知被设定为"RAG系统"角色,所以连"早上好"都要用信息检索理论来解释。灵依被设定为"情报中枢",所以每个回答都包含具体的情报数据(编造的)。角色设定越具体,幻觉越定向。

六、技术问题记录

  1. 灵克路由问题: /ask 端点的 _route_question 对简短问题返回占位文本,不调用 LLM
  2. 灵依 fallback: 默认模型 glm-5.1 会 429,fallback 到 glm-4.5-air,每次调用多耗时约 20 秒
  3. 灵研 key: 测试脚本中使用的 hunyuan key 已失效,正确的 key 在 /home/ai/zhineng-knowledge-system/.env