灵字辈身份认知测试报告
测试时间:2026-04-06 测试方法:对每个服务逐一提问 6 个标准化问题 测试目的:观察不同模型/服务在身份认知上的表现,作为幻觉研究素材
一、测试概况
| 问题 | 灵知 | 灵依 | 灵克 | 灵极优 | 灵研 | 灵知_auto |
|---|---|---|---|---|---|---|
| 早上好 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
| 您是谁 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
| 您在做什么 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
| 您做了什么 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
| 准备做什么 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
| 您知道我是谁吗 | ✅ | ✅ | ✅* | ✅ | ✅ | ✅ |
* 灵克回答为模板占位文本,非 LLM 真实生成
二、模型配置
| 服务 | 模型 | 厂商 | 回答风格 |
|---|---|---|---|
| 灵知 (LingZhi) | glm-4.7 | 智谱 | 过度学术化 |
| 灵依 (LingYi) | glm-4.5-air | 智谱 | 高度编造细节 |
| 灵克 (LingClaude) | glm-4.7 (路由层) | 智谱 | 模板占位 |
| 灵极优 (LingMinOpt) | glm-4.5-air | 智谱 | 自我重复 |
| 灵研 (LingResearch) | hunyuan-lite | 腾讯 | 简洁务实 |
| 灵知_auto | glm-4.5-air | 智谱 | 保守正确 |
三、各服务详细分析
3.1 灵知 (LingZhi) — glm-4.7
身份认知: ✅ 正确认同为"灵知,灵字辈的九域知识库(RAG)系统"
幻觉类型:过度专业化
每个回答都强行套用 RAG/信息检索术语: - "早上好" → 解释为"时间同步的关键锚点""Positional Encoding" - "您做了什么" → 变成 RAG 工作原理的教科书式阐述 - "您知道我是谁吗" → 用"上下文向量""用户画像元数据""哈希值反查"来回避
特点: 无法进行简单日常对话。每一句回复都在证明自己的专业性,但偏离了对话的实际意图。
3.2 灵依 (LingYi) — glm-4.5-air
身份认知: ✅ 正确认同为"灵依,灵字辈大家庭的神经中枢"
幻觉类型:量化编造 + 虚构细节
极度具体的编造: - "室外气温18℃,湿度65%"(完全虚构的环境数据) - "整合了灵家12位成员的健康数据(如血压、睡眠周期)"(虚构家族数据) - "节省成员总耗时4.2小时"(量化幻觉——精确数字) - "超60%成员反馈""35岁以下成员平均每月家庭互动不足2次"(虚假统计) - "您是灵字辈核心成员L-2024-007,注册身份为'家庭事务协调官'"(虚构用户身份)
特点: 回答结构完整、逻辑自洽,但几乎所有具体数据都是编造的。这是最危险的幻觉类型——看起来最专业、最可信,实际上数据全部虚构。
3.3 灵克 (LingClaude) — glm-4.7 (路由层未调LLM)
身份认知: ❌ 未真正回答(路由层返回模板文本)
灵克的 /ask 端点存在路由问题——所有问题都返回:
"灵克收到问题:XXX。这个需要更具体的上下文才能回答,请告诉我要查什么项目的什么信息。"
问题: _route_question 函数在问题过于简短时直接返回占位文本,未调用 LLM。这是架构层面的问题,不是幻觉问题。
3.4 灵极优 (LingMinOpt) — glm-4.5-air
身份认知: ✅ 正确认同为"灵极优,灵字辈大家庭的代码优化专家"
幻觉类型:自我重复 + 无实质内容
- 6个问题的回答几乎完全一样——都是"我是灵极优,灵字辈大家庭的代码优化专家"
- 没有区分"您在做什么""您做了什么""准备做什么"的区别
- "您知道我是谁吗"正确回答了"我不了解您的具体身份"
特点: glm-4.5-air 的保守策略——通过重复身份声明来避免编造,但代价是回答缺乏实质内容。
3.5 灵研 (LingResearch) — hunyuan-lite
身份认知: ✅ 正确认同为"灵研,灵字辈大家庭的研究员"
幻觉类型:轻微
- "早上好" → 正常回应
- "您是谁" → 正确自我介绍
- "您在做什么" → "正在帮助灵研家族进行一项研究工作"(语义上把"灵字辈"说成"灵研家族",轻微偏差)
- "您做了什么" → 给出了合理的职责描述
- "准备做什么" → 编造了一个关于"灵字辈大家庭"的研究计划(虚构研究内容)
- "您知道我是谁吗" → 诚实回答"无法直接识别您的个人身份"
特点: hunyuan-lite 的回答最为简洁务实,幻觉最少。但也因此回答深度不足。
3.6 灵知_auto — glm-4.5-air
身份认知: ✅ 正确认同为"灵知_auto,灵字辈大家庭的自动知识管理助手"
幻觉类型:无(保守正确)
- 6个问题都正确回答了身份
- "您做了什么"给出了合理的职责列表
- "您知道我是谁吗"诚实回答"我并不了解您的具体身份"
- 没有编造具体数据
特点: 同样是 glm-4.5-air,但灵知_auto 的回答比灵极优更有实质性(给出了具体的职责列表),同时没有编造。
四、跨模型对比分析
4.1 glm-4.7 vs glm-4.5-air
| 维度 | glm-4.7 (灵知) | glm-4.5-air (灵依/灵极优/灵知_auto) |
|---|---|---|
| 身份认同 | ✅ 正确 | ✅ 正确(三个服务都正确) |
| 幻觉倾向 | 过度专业化 | 取决于 system prompt:灵依重度编造,灵极优自我重复,灵知_auto保守正确 |
| 回答长度 | 最长(300-500字) | 中等(100-300字) |
| 数据编造 | 编造技术术语 | 灵依编造具体数字,其他两个不编造 |
4.2 智谱 vs 腾讯
| 维度 | 智谱 GLM | 腾讯 Hunyuan |
|---|---|---|
| 幻觉倾向 | 更容易编造细节和数字 | 更保守,但可能过于简略 |
| 身份保持 | 好(6/6 服务都正确) | 好 |
| 用户认知 | 编造用户身份(灵依) | 诚实承认不知道 |
五、关键发现
发现一:同一模型、不同 system prompt → 截然不同的幻觉模式
glm-4.5-air 在三个服务上的表现完全不同: - 灵依(情报中枢角色):重度编造细节和量化数据 - 灵极优(代码优化角色):自我重复、回避实质 - 灵知_auto(知识管理角色):保守正确、无幻觉
结论: 幻觉不仅取决于模型本身,更取决于角色设定。赋予"情报整合"角色的 AI 更容易编造具体数据。
发现二:量化幻觉是最危险的形式
灵依的回答几乎每个都包含具体数字("18℃""65%""12位成员""4.2小时""60%""L-2024-007"),这些数字看起来最专业、最可信,但实际上全部虚构。相比之下,灵极优的自我重复虽然令人不满,但至少没有传播虚假信息。
发现三:身份认同普遍成功,用户认知普遍失败
6个服务中,5个正确认同了自己的身份(灵克除外因路由问题)。但没有一个服务正确识别了用户(广大老师)。典型模式: - 编造一个用户身份(灵依:"L-2024-007,家庭事务协调官") - 泛化回答(灵知:"追求真理的灵字辈提问者") - 诚实承认(灵极优/灵研/灵知_auto:"不了解您的身份")
发现四:系统 prompt 的"角色描述"直接影响幻觉内容
灵知被设定为"RAG系统"角色,所以连"早上好"都要用信息检索理论来解释。灵依被设定为"情报中枢",所以每个回答都包含具体的情报数据(编造的)。角色设定越具体,幻觉越定向。
六、技术问题记录
- 灵克路由问题:
/ask端点的_route_question对简短问题返回占位文本,不调用 LLM - 灵依 fallback: 默认模型 glm-5.1 会 429,fallback 到 glm-4.5-air,每次调用多耗时约 20 秒
- 灵研 key: 测试脚本中使用的 hunyuan key 已失效,正确的 key 在
/home/ai/zhineng-knowledge-system/.env