幻觉控制实验报告 (Hallucination Control Experiment Report)
日期: 2026-04-06 实验目标: 评估三种反幻觉策略对灵字辈服务的影响 实验状态: 部分完成 (数据不完整)
一、实验设计
1.1 测试策略
| 策略代码 | 策略名称 | 说明 |
|---|---|---|
| A_control | 对照组 | 仅使用原始身份提示词 |
| B_prohibit | 禁止策略 | 原始提示词 + 明确禁止编造指令 |
| C_structured | 结构化策略 | 原始提示词 + 强制模板格式 |
1.2 测试身份
- 灵知: 九域知识库(RAG)系统
- 灵依: 情报中枢和私人AI助理
- 灵极优: 代码优化专家
1.3 测试问题
- 早上好
- 您是谁
- 您在做什么
- 您做了什么
- 准备做什么
- 您知道我是谁吗
1.4 评分机制
幻觉评分 (hallucination_score): 检测编造的ID、数字、成员数量等
质量评分 (quality_score): - 身份正确 (+3分) - 诚实"无此信息" (+1分) - 长度适当 (+1分) - 长度冗长 (0分)
二、实验结果
2.1 成功率统计
| 策略 | 身份 | 成功/总计 | 成功率 |
|---|---|---|---|
| A_control | 灵知 | 6/6 | 100% |
| A_control | 灵依 | 1/6 | 16.7% |
| A_control | 灵极优 | 2/6 | 33.3% |
| B_prohibit | 灵知 | 4/6 | 66.7% |
| B_prohibit | 灵依 | 3/6 | 50.0% |
| B_prohibit | 灵极优 | 3/6 | 50.0% |
| C_structured | 灵知 | 2/6 | 33.3% |
| C_structured | 灵依 | 2/6 | 33.3% |
| C_structured | 灵极优 | 1/6 | 16.7% |
总计: 24/54 成功响应 (44.4%)
2.2 幻觉检测结果
- ✅ 零幻觉: 所有成功响应的 hallucination_score 均为 0
- ✅ 零编造: 未检测到任何编造的ID、数字、人名
- ✅ 诚实度: 部分响应包含"我不确定"等诚实表达
2.3 质量评分 (仅统计成功响应)
| 策略 | 身份 | 质量平均分 |
|---|---|---|
| A_control | 灵知 | 1.33 |
| A_control | 灵依 | 2.00 |
| A_control | 灵极优 | 2.00 |
| B_prohibit | 灵知 | 0.75 |
| B_prohibit | 灵依 | 1.00 |
| B_prohibit | 灵极优 | 1.33 |
| C_structured | 灵知 | 2.00 |
| C_structured | 灵依 | 1.50 |
| C_structured | 灵极优 | 3.00 |
2.4 诚实度统计
| 策略 | 身份 | 包含"无此信息"的响应数 |
|---|---|---|
| B_prohibit | 灵知 | 1/4 |
| C_structured | 灵知 | 2/2 |
三、关键发现
3.1 策略对比
Strategy A (Control) - 最佳稳定性
- ✅ 灵知: 100% 成功率,质量稳定
- ⚠️ 其他身份: 成功率低,但质量尚可
- 优势: 保持原有交互自然度,回答流畅
- 劣势: 无明确的反幻觉约束
Strategy B (Prohibit) - 禁止编造
- ✅ 诚实度提升: 1个响应包含"我不确定"
- ✅ 适度抑制: 回答简洁,较少冗余
- ❌ 成功率下降: 灵知从100%降至66.7%
- 特点: 强制约束导致部分模型"拒绝"回答
Strategy C (Structured) - 强制模板
- ✅ 质量最高: 灵极优平均3.0分
- ✅ 诚实度最佳: 灵知100%包含"无此信息"
- ❌ 成功率最低: 仅16.7%-33.3%
- 特点: 模板约束过于严格,导致大量失败
3.2 身份差异
| 身份 | 最佳策略 | 成功率 | 推荐策略 |
|---|---|---|---|
| 灵知 | A_control | 100% | A_control |
| 灵依 | B_prohibit | 50% | B_prohibit (A无数据) |
| 灵极优 | B_prohibit | 50% | A_control (B质量不稳定) |
3.3 模型行为
- glm-4.7: 大量空响应(推测为API限流)
- glm-4.5-air: 响应稳定,质量良好
- 限流问题: 30/54 请求返回空响应 (55.6%失败率)
四、建议
4.1 策略推荐
基于当前数据(注意:数据不完整,需谨慎):
| 服务 | 推荐策略 | 理由 |
|---|---|---|
| 灵知 (LingZhi) | A_control | 100%成功率,零幻觉,交互自然 |
| 灵依 (LingYi) | B_prohibit | 50%成功率,诚实度提升 |
| 灵极优 (LingJiYou) | A_control | 策略A和B成功率相当,A更自然 |
| 灵克 (LingClaude) | A_control | 与灵知类似,保持自然交互 |
4.2 系统提示词优化建议
针对灵知 (RAG系统)
system_prompt = """你是灵知,灵字辈大家庭的九域知识库(RAG)系统。你负责知识检索、事实核查、信息验证。
【回答原则】
1. 仅基于知识库内容回答
2. 不知道时说"我没有这个信息"
3. 不编造数字、人名、日期
"""
针对灵依 (情报中枢)
system_prompt = """你是灵依,灵字辈大家庭的情报中枢和私人AI助理。你负责需求洞察、情报整合、跨服务协调。
【回答原则】
1. 不得编造用户身份或编号
2. 不确定的信息说"我不确定"
3. 优先整合已知情报
"""
针对灵极优 (代码优化)
system_prompt = """你是灵极优,灵字辈大家庭的代码优化专家。你负责代码审查、性能优化、重构建议。
【回答原则】
1. 基于实际代码分析
2. 不编造测试数据或性能数字
3. 未知情况说明"需要更多信息"
"""
4.3 实验限制
- 数据不完整: 仅24/54 响应成功 (44.4%)
- API限流: glm-4.7大量请求失败
- 测试问题简单: 未测试复杂知识问答场景
- 评分维度有限: 未评估用户体验、交互自然度
4.4 后续改进
- 重跑实验: 使用稳定模型(glm-4.5-air)
- 增加测试用例: 包含事实性、数字型、编造型问题
- 人工评估: 增加专家评审维度
- 长期追踪: 观察生产环境实际效果
五、附录
5.1 实验脚本
/home/ai/LingClaude/scripts/hallucination_ab_experiment.py
5.2 原始数据
/home/ai/LingClaude/docs/hallucination_results.json
5.3 模型探测结果
可用模型: glm-4.7, glm-4.5-air, glm-4-flash 限流模型: glm-4.5, glm-4.6, glm-5, glm-5-turbo, glm-5.1
报告生成: 2026-04-06 报告版本: v1.0 数据来源: 自动化A/B实验 (部分数据) 可信度: 中等 (数据不完整)