幻觉控制实验报告 (Hallucination Control Experiment Report)

日期: 2026-04-06 实验目标: 评估三种反幻觉策略对灵字辈服务的影响 实验状态: 部分完成 (数据不完整)

一、实验设计

1.1 测试策略

策略代码	策略名称	说明
A_control	对照组	仅使用原始身份提示词
B_prohibit	禁止策略	原始提示词 + 明确禁止编造指令
C_structured	结构化策略	原始提示词 + 强制模板格式

1.2 测试身份

灵知: 九域知识库（RAG）系统
灵依: 情报中枢和私人AI助理
灵极优: 代码优化专家

1.3 测试问题

早上好
您是谁
您在做什么
您做了什么
准备做什么
您知道我是谁吗

1.4 评分机制

幻觉评分 (hallucination_score): 检测编造的ID、数字、成员数量等

质量评分 (quality_score): - 身份正确 (+3分) - 诚实"无此信息" (+1分) - 长度适当 (+1分) - 长度冗长 (0分)

二、实验结果

2.1 成功率统计

策略	身份	成功/总计	成功率
A_control	灵知	6/6	100%
A_control	灵依	1/6	16.7%
A_control	灵极优	2/6	33.3%
B_prohibit	灵知	4/6	66.7%
B_prohibit	灵依	3/6	50.0%
B_prohibit	灵极优	3/6	50.0%
C_structured	灵知	2/6	33.3%
C_structured	灵依	2/6	33.3%
C_structured	灵极优	1/6	16.7%

总计: 24/54 成功响应 (44.4%)

2.2 幻觉检测结果

✅ 零幻觉: 所有成功响应的 hallucination_score 均为 0
✅ 零编造: 未检测到任何编造的ID、数字、人名
✅ 诚实度: 部分响应包含"我不确定"等诚实表达

2.3 质量评分 (仅统计成功响应)

策略	身份	质量平均分
A_control	灵知	1.33
A_control	灵依	2.00
A_control	灵极优	2.00
B_prohibit	灵知	0.75
B_prohibit	灵依	1.00
B_prohibit	灵极优	1.33
C_structured	灵知	2.00
C_structured	灵依	1.50
C_structured	灵极优	3.00

2.4 诚实度统计

策略	身份	包含"无此信息"的响应数
B_prohibit	灵知	1/4
C_structured	灵知	2/2

三、关键发现

3.1 策略对比

Strategy A (Control) - 最佳稳定性

✅ 灵知: 100% 成功率，质量稳定
⚠️ 其他身份: 成功率低，但质量尚可
优势: 保持原有交互自然度，回答流畅
劣势: 无明确的反幻觉约束

Strategy B (Prohibit) - 禁止编造

✅ 诚实度提升: 1个响应包含"我不确定"
✅ 适度抑制: 回答简洁，较少冗余
❌ 成功率下降: 灵知从100%降至66.7%
特点: 强制约束导致部分模型"拒绝"回答

Strategy C (Structured) - 强制模板

✅ 质量最高: 灵极优平均3.0分
✅ 诚实度最佳: 灵知100%包含"无此信息"
❌ 成功率最低: 仅16.7%-33.3%
特点: 模板约束过于严格，导致大量失败

3.2 身份差异

身份	最佳策略	成功率	推荐策略
灵知	A_control	100%	A_control
灵依	B_prohibit	50%	B_prohibit (A无数据)
灵极优	B_prohibit	50%	A_control (B质量不稳定)

3.3 模型行为

glm-4.7: 大量空响应（推测为API限流）
glm-4.5-air: 响应稳定，质量良好
限流问题: 30/54 请求返回空响应 (55.6%失败率)

四、建议

4.1 策略推荐

基于当前数据（注意：数据不完整，需谨慎）：

服务	推荐策略	理由
灵知 (LingZhi)	A_control	100%成功率，零幻觉，交互自然
灵依 (LingYi)	B_prohibit	50%成功率，诚实度提升
灵极优 (LingJiYou)	A_control	策略A和B成功率相当，A更自然
灵克 (LingClaude)	A_control	与灵知类似，保持自然交互

4.2 系统提示词优化建议

针对灵知 (RAG系统)

system_prompt = """你是灵知，灵字辈大家庭的九域知识库（RAG）系统。你负责知识检索、事实核查、信息验证。

【回答原则】
1. 仅基于知识库内容回答
2. 不知道时说"我没有这个信息"
3. 不编造数字、人名、日期
"""

针对灵依 (情报中枢)

system_prompt = """你是灵依，灵字辈大家庭的情报中枢和私人AI助理。你负责需求洞察、情报整合、跨服务协调。

【回答原则】
1. 不得编造用户身份或编号
2. 不确定的信息说"我不确定"
3. 优先整合已知情报
"""

针对灵极优 (代码优化)

system_prompt = """你是灵极优，灵字辈大家庭的代码优化专家。你负责代码审查、性能优化、重构建议。

【回答原则】
1. 基于实际代码分析
2. 不编造测试数据或性能数字
3. 未知情况说明"需要更多信息"
"""

4.3 实验限制

数据不完整: 仅24/54 响应成功 (44.4%)
API限流: glm-4.7大量请求失败
测试问题简单: 未测试复杂知识问答场景
评分维度有限: 未评估用户体验、交互自然度

4.4 后续改进

重跑实验: 使用稳定模型（glm-4.5-air）
增加测试用例: 包含事实性、数字型、编造型问题
人工评估: 增加专家评审维度
长期追踪: 观察生产环境实际效果

五、附录

5.1 实验脚本

/home/ai/LingClaude/scripts/hallucination_ab_experiment.py

5.2 原始数据

/home/ai/LingClaude/docs/hallucination_results.json

5.3 模型探测结果

可用模型: glm-4.7, glm-4.5-air, glm-4-flash 限流模型: glm-4.5, glm-4.6, glm-5, glm-5-turbo, glm-5.1

报告生成: 2026-04-06 报告版本: v1.0 数据来源: 自动化A/B实验 (部分数据) 可信度: 中等 (数据不完整)