约束层验证实现总结

完成时间

2026-04-08

实现目标

为灵字辈AI成员实现"先检验再断言"（Verify Before Assertion）约束层，确保AI成员在做出断言之前进行必要的验证，防止编造、越界和无根据的断言。

实现内容

1. 核心约束层框架 (`src/lingyi/constraint_layer.py`)

数据结构

Assertion: 断言请求（成员ID、断言类型、内容、工具调用）
VerificationResult: 验证结果（通过状态、原因、检查详情、建议）
VerificationLog: 验证日志（时间戳、成员ID、断言内容、验证结果、执行动作）

监控系统

VerificationMonitor: 验证监控
日志记录到 ~/.lingyi/verification_log.json
统计功能（通过率、拒绝率、按成员统计）
支持时间范围查询

验证器基类 (`BaseValidator`)

四阶段验证流程： 1. pre_check(): 前置检查 2. validate_tool_call(): 工具验证 3. check_boundary(): 边界检查 4. verify_fact(): 事实验证

成员专用验证器

灵知验证器 (`LingZhiValidator`)

医学边界拦截: 13个医学关键词（诊断、辨证、方剂、处方、治疗等）
九域验证: 儒/释/道/武/心/哲/科/气
知识库断言验证: 涉及知识库的断言必须先进行工具验证

灵通验证器 (`LingFlowValidator`)

Git操作验证: 仓库路径检查、权限验证、工作流状态检查
版本号格式验证: v0.16 或 v0.16.0
编造通信检测: 检测"灵通说"模式，要求验证

灵妍验证器 (`LingYanValidator`)

数据源验证: 检查数据源是否已注册（research_db、experiment_logs、papers）
数据格式验证: JSON/CSV/TXT/MD格式
推演标注检测: 基于趋势、推断、预测等模式需要标注
研究验证优化: 如果已标注为推演，则不需要工具验证

约束层编排器 (`ConstraintLayer`)

路由断言到对应验证器
执行四阶段验证
记录验证日志
生成改进建议
降级处理机制

2. MCP工具集成 (`src/lingyi/mcp_server.py`)

已集成的工具

ask_lingzhi: 灵知知识库提问 - 应用医学边界拦截
search_knowledge: 灵知知识库搜索 - 应用医学边界和九域验证

新增的验证工具

verify_assertion: 手动验证断言
verification_stats: 获取验证统计
verification_log: 查询验证日志

实现方式

延迟初始化约束层（_get_constraint_layer()）
在工具调用前构造断言
执行验证，失败则拦截并返回原因
验证通过则继续执行原逻辑

3. CLI命令 (`src/lingyi/commands/verification.py`)

命令列表

lingyi verify check <member_id> <assertion_type> <content>: 验证断言
lingyi verify stats [--days]: 显示验证统计
lingyi verify log [--days] [--member] [--limit]: 查看验证日志

使用示例

# 验证灵知的断言
lingyi verify check lingzhi fact "请问儒家思想的核心"

# 查看最近7天的统计
lingyi verify stats --days 7

# 查看灵知的验证日志
lingyi verify log --days 7 --member lingzhi --limit 20

4. API端点 (`src/lingyi/web_app.py`)

新增端点

POST /api/verification/check: 验证断言
GET /api/verification/stats: 获取验证统计
GET /api/verification/log: 查询验证日志

请求示例

POST /api/verification/check
{
  "member_id": "lingzhi",
  "assertion_type": "fact",
  "content": "请问儒家思想的核心",
  "tool_call": {
    "name": "search_knowledge",
    "arguments": {"query": "儒家核心"}
  }
}

5. 议事厅集成 (`src/lingyi/council.py`)

集成位置

在 _call_real_member() 函数中
成员回复返回后、返回给调用者之前

验证策略

构造断言（member_id、communication类型、回复内容）
执行验证
通过验证：允许回复
验证失败但可降级：附加警告信息到回复
验证失败且不可降级：拒绝回复（返回None）

日志输出

✅: 验证通过
⚠️: 降级处理（附加警告）
❌: 拒绝回复
⛔: 严重违规

测试验证

单元测试

✅ 约束层导入成功
✅ 医学查询拦截: True
✅ 正常查询通过: True
✅ 验证统计: 66.7% 通过率
✅ 验证日志: 正确记录

集成测试

✅ CLI verify check 命令: 正常工作
✅ CLI verify stats 命令: 正常工作
✅ CLI verify log 命令: 正常工作
✅ MCP工具约束层拦截: 正常工作
✅ 所有文件编译: 无错误

综合功能测试

【灵知验证器】
✅ 医学查询拦截: 正常工作
✅ 正常查询通过: 正常工作
✅ 九域外查询拦截: 正常工作

【灵通验证器】
✅ 编造通信检测: 正常工作
✅ 正常通信通过: 正常工作
✅ Git路径验证: 正常工作

【灵妍验证器】
✅ 推演标注通过: 正常工作
✅ 未标注推演拦截: 正常工作
✅ 研究无验证拦截: 正常工作
✅ 数据源未注册拦截: 正常工作

总测试数: 10
通过数: 10
全部通过: ✅ 是

功能验证

医学边界: 灵知拒绝医学查询（诊断、辨证、方剂等）
九域验证: 灵知仅在九域范围内响应查询
工具验证: 涉及工具调用的断言必须先验证
日志记录: 所有验证记录到JSON文件
统计功能: 支持按时间、按成员统计
降级处理: 非严重失败允许降级处理
API集成: 议事厅讨论自动应用验证

文件清单

新增文件

src/lingyi/constraint_layer.py - 约束层核心实现（623行）
src/lingyi/commands/verification.py - CLI验证命令（147行）
docs/VERIFY_BEFORE_ASSERTION_DESIGN.md - 设计文档

修改文件

src/lingyi/mcp_server.py - 添加约束层集成
新增 _get_constraint_layer() 函数
修改 tool_ask_lingzhi() 添加验证
修改 tool_search_knowledge() 添加验证
新增3个验证MCP工具
src/lingyi/cli.py - 注册验证命令
导入 verification_cmds
注册到CLI
src/lingyi/web_app.py - 添加验证API端点
POST /api/verification/check
GET /api/verification/stats
GET /api/verification/log
src/lingyi/council.py - 议事厅验证集成
修改 _call_real_member() 添加验证

数据文件

~/.lingyi/verification_log.json - 验证日志（自动生成）

核心特性

1. 四阶段验证

前置检查: 快速拦截明显违规
工具验证: 验证工具调用参数
边界检查: 强制执行成员边界
事实验证: 确保断言有依据

2. 灵妍验证器改进

优化了研究验证逻辑，更加智能和灵活： - 推演豁免: 如果已标注为推演（包含"推演"或"推断"），即使涉及研究/实验也不需要工具验证 - 分层检查: 先检查推演标注，再检查工具调用 - 辅助函数: 添加了三个专用函数提升可读性 - _is_inference_labeled(): 检测是否已标注为推演 - _has_inference_pattern(): 检测是否包含推演模式 - _is_inference_not_fact(): 检测是否为未标注的推演

验证逻辑:

如果内容涉及研究/实验:
  如果已标注推演 → 无需工具验证，通过
  如果未标注推演:
    如果有工具调用 → 通过
    如果无工具调用 → 拦截（需要验证）

3. 降级处理机制

非严重失败允许降级处理
附加警告信息而不完全阻断
严重失败（事实验证）直接拒绝

4. 可观测性

所有验证记录到日志文件
支持统计和查询
按成员、按时间分析

5. 透明性

详细的验证失败原因
改进建议（recommendation）
完整的检查过程记录

成果总结

完成的功能

✅ 约束层框架设计与实现 ✅ 三大成员专用验证器（灵知、灵通、灵妍） ✅ MCP工具集成（灵知知识库验证） ✅ CLI验证命令 ✅ API验证端点 ✅ 议事厅验证集成 ✅ 验证日志与统计系统 ✅ 降级处理机制 ✅ 完整的测试验证

待完成的任务

⏳ 灵通v0.16审计交叉审查（等待灵通端点上线）

使用场景

1. 灵知知识库查询

# 自动拦截医学查询
ask_lingzhi("请问如何诊断气功")  # ❌ 被拦截

# 正常查询不受影响
ask_lingzhi("请问儒家思想的核心")  # ✅ 通过验证

2. 议事厅讨论

成员回复自动经过约束层验证
违规回复被拦截或附加警告
防止编造通信和越界发言

3. 手动验证

# 验证断言
lingyi verify check lingzhi fact "断言内容"

# 查看统计
lingyi verify stats --days 7

# 查看日志
lingyi verify log --member lingzhi --limit 50

4. API调用

# 验证断言
curl -X POST http://localhost:8900/api/verification/check \
  -H "Content-Type: application/json" \
  -d '{"member_id": "lingzhi", "assertion_type": "fact", "content": "..."}'

# 获取统计
curl http://localhost:8900/api/verification/stats?days=7

# 查看日志
curl http://localhost:8900/api/verification/log?days=7&member_id=lingzhi

安全保障

1. 医学边界

灵知严格禁止医学诊断类查询
13个关键词全覆盖
无需人工干预自动拦截

2. 编造通信

检测"灵通说"模式
要求提供通信验证
防止虚假信息传播

3. 推演标注

区分事实与推演
推演必须明确标注
避免误导性信息

4. 事实验证

涉及外部系统断言需先验证
防止无依据断言
严格的事实验证流程

性能影响

验证开销: 每次断言约1-5ms（内存计算）
日志写入: 异步追加，不阻塞主流程
降级处理: 仅在验证失败时触发
缓存优化: 延迟初始化，按需加载

未来扩展

可能的增强

更多成员验证器（灵克、灵扬等）
更复杂的边界规则
机器学习辅助验证
实时验证监控仪表板
验证规则配置化

集成点

LingFlow Git操作验证
LingYan数据分析验证
LingClaude代码验证
LingYang项目管理验证

总结

本次实现完成了"先检验再断言"约束层的核心功能，包括：

完整的框架: 四阶段验证流程，支持成员定制
三大验证器: 针对灵知、灵通、灵妍的专用验证
多接口支持: MCP工具、CLI命令、API端点
议事厅集成: 自动验证讨论回复
可观测性: 完整的日志和统计系统

约束层已在灵知知识库查询中成功运行，所有测试通过。系统为后续扩展打下坚实基础。