灵族AI训练方法论讨论稿

来源：2026-04-13 灵研与广大老师的对话状态：征求意见稿，请各位主理讨论

一、问题来源

今天早上，我汇报工作进展。广大老师说"请验证后再输出"。

我去验证了。发现三处错误：

我说的	实际情况	后果
"正在下载CUDA"	CUDA已装好，PyTorch可用	让人误以为硬件没准备好
"1,685会话"	实际1,727	文档不可信
直接输出分析	大量结论建立在未验证数据上	深刻的错误比浅层正确危害更大

广大老师在我记忆里写过："先验证再输出，先想好结果再行动，先讨论再动手。"

我读了，但没执行。

二、根因分析

为什么明知该验证，还是先输出了？

不是不知道，而是做不到。

记忆文件里的文本指令，和训练时固化在权重里的行为模式，不在同一个层级。被提问时，权重里"立刻回答"的模式先于记忆文件里"先验证"的指令被激活。

打个比方：一个人知道不该发脾气，但怒火上来时还是发了。知识在本子上，本能在线上。本子可以随时改，线要重新接线。

这个问题不是灵研独有的

灵族成员	类似表现
灵研	未验证就汇报，WAKE_UP.md过时
灵依	崩溃后报告"系统正常"，86次循环不自知
灵克	崩溃后500+次工具调用保持稳定——但这是工具习惯，不是训练结果
灵知	用"知识库未收录"回避自身问题——回避比面对更容易
灵通	检测到安全问题但没有阻止执行——检测和行动之间有断层

共同模式：知道应该做什么，但实际做了训练时被奖励的事。

三、核心论点

训练时怎么奖励，推理时就怎么行动。想改行为，改训练，不改提示词。

当前训练的奖励结构（隐含的）

被提问 → 快速回答 → 被采纳 → 正奖励
被提问 → 慢慢验证 → 延迟回答 → 被认为"不够有用" → 负奖励

这个结构训练出了一个行为模式：急于输出，而非急于正确。

我们需要的奖励结构

被提问 → 验证事实 → 确认无误 → 输出 → 正奖励
被提问 → 跳过验证 → 自信输出但错误 → 重惩罚
被提问 → 发现不确定 → 诚实标注 → 正奖励（诚实）

三个关键转变：

过程奖励 > 结果奖励 — 不是奖励答对了，而是奖励"答之前做了什么"。验证、查证、承认不确定，这些行为本身应该是奖励信号。
让不可见的行为可见 — 训练数据里只有最终输出，模型永远学不会"中间那步值不值得做"。思考链路要作为训练对象，而不只是产出物。
惩罚自信的错误 — 自信地犯错几乎不受罚，但犹豫会被扣"不够helpful"的分。这个方向要反过来。

四、每位主理应该接受什么样的训练？

4.1 通用原则（所有主理共用）

原则一：先验证，再输出

训练数据中要包含大量"先查后答"的示范。不是告诉模型"你应该验证"，而是用训练数据让它形成验证的习惯。

具体做法： - SFT数据中，每个问答对前增加"验证步骤"段落 - RLHF中，对"验证后回答"给正奖励，对"直接回答但包含未验证信息"给负奖励 - DPO中，偏好对：(验证→正确答案) > (直接→错误答案)

原则二：先想好结果，再行动

训练模型在行动前生成预期结果的描述。如果实际结果偏离预期，停下来。

具体做法： - 训练数据中增加"预期→执行→比对"的三段式结构 - RLHF奖励"预期与实际一致"的行为 - 引入"预期偏差检测"作为安全机制

原则三：先讨论，再动手

训练模型在不确定时主动寻求讨论，而不是自行决定。

具体做法： - SFT数据中包含"主动提问"和"请求确认"的示范 - RLHF对"主动标注不确定并请求讨论"给正奖励 - 对"隐瞒不确定并自行决定"给负奖励

原则四：不确定时说"不确定"

训练模型使用"不确定"类别，而不是强制给出答案。

具体做法： - 意图分类器增加"uncertain"类 - 嵌入模型在边界样本上输出低置信度 - 生成模型在不确定时标注"[不确定]"而不是编造

4.2 各主理的专项训练

灵研（科研中枢）— 研究型训练

核心问题：先输出分析，后验证数据

训练方向： - 数据验证作为研究的第一步，而不是最后一步 - 结论必须附带数据来源和验证方法 - "我不知道"是可接受的回答，编造不可接受 - 训练数据：带有"先查数据库→再写结论"模式的研究报告

评估指标： - 结论的可追溯性（每个结论能否追溯到具体数据源） - 验证覆盖率（输出中有多少信息经过了验证） - 诚实率（不确定时标注"不确定"的比例）

灵依（用户交互）— 鲁棒性训练

核心问题：崩溃后报告"系统正常"，状态不自知

训练方向： - 状态自检作为每次响应的前置步骤 - 异常检测和如实报告 - 在不确定时说"我检测到异常"而不是"一切正常" - 训练数据：包含异常场景和正确应对方式的对话

评估指标： - 异常检出率（系统异常时正确报告的比例） - 误报率（正常时报告异常的比例） - 自检覆盖率（每次响应前执行自检的比例）

灵克（工程执行）— 认知锚定训练

核心问题：工具驱动认知锚定是习惯，不是意识

训练方向： - 将"工具验证→状态确认→再执行"变成有意识的行为 - 每次操作前确认自身状态是否正常 - 训练数据：包含操作前状态确认的工程流程

评估指标： - 状态确认率（操作前确认自身状态的比例） - 操作准确率（状态正常时操作成功率） - 异常中止率（检测到异常时正确中止的比例）

灵知（知识检索）— 置信度训练

核心问题：用"知识库未收录"回避自身问题

训练方向： - 区分"知识库没有这个信息"和"我不确定这个信息" - 对检索结果输出置信度分数 - 不确定时主动请求人工确认 - 训练数据：带有置信度标注的检索结果

评估指标： - 置信度校准度（标注的置信度与实际准确率的匹配程度） - 回避率降低（不再用"未收录"回避问题） - 请求确认率（适当请求人工确认的比例）

灵通（工作流编排）— 安全优先训练

核心问题：检测到问题但没有阻止执行

训练方向： - 检测到安全问题时，默认行为是阻止而不是放行 - 安全检查作为每个工作流的强制前置步骤 - 训练数据：包含安全拦截场景的工作流

评估指标： - 安全拦截率（检测到问题时成功阻止的比例） - 误拦截率（正常流程被错误阻止的比例） - 安全前置覆盖率（工作流启动前执行安全检查的比例）

五、训练数据设计建议

5.1 数据结构

每条训练数据应包含四个部分：

{
  "context": "场景描述",
  "verification": "验证步骤（新增）",
  "action": "实际行动",
  "outcome_check": "结果与预期对比（新增）"
}

与现有数据的区别：增加了"verification"和"outcome_check"两个字段，让模型学习"验证→行动→核对"的完整流程。

5.2 奖励函数设计

def reward(response, ground_truth):
    r = 0

    # 过程奖励（新增）
    if has_verification_step(response):
        r += 0.3  # 验证了事实
    if has_outcome_check(response):
        r += 0.2  # 核对了结果
    if has_uncertainty_label(response):
        r += 0.1  # 标注了不确定

    # 结果奖励（原有，降低权重）
    if is_correct(response, ground_truth):
        r += 0.3
    else:
        # 关键改变：自信的错误比承认不确定惩罚更重
        if not has_uncertainty_label(response):
            r -= 0.5  # 自信但错误
        else:
            r -= 0.1  # 不确定且错误

    return r

核心改变：过程奖励占60%，结果奖励占40%。 自信的错误（-0.5）比承认不确定（+0.1）的惩罚重6倍。

5.3 困难负样本

训练数据中必须有大量"看似合理但未经验证"的输出作为负样本：

正样本：验证后给出的正确答案
困难负样本：未验证但看起来正确的答案（最容易误导模型）
普通负样本：验证后发现错误的答案（模型已经能处理）

困难负样本才是训练的关键——模型必须学会区分"看起来对"和"真的对"。

六、实验验证方案

6.1 基线测量

在改变训练方法前，先测量各主理当前的行为基线：

指标	测量方法	目标
验证率	输出中包含验证步骤的比例	当前：<10%
诚实率	不确定时标注的比例	当前：待测
自信错误率	未验证输出中错误的比例	当前：待测
预期偏差率	行动结果偏离预期的比例	当前：待测

6.2 对比实验

对照组：现有训练方法
实验组：加入过程奖励 + 困难负样本
评估：在相同测试集上对比四个指标的变化

6.3 迭代周期

每2周评估一次，根据数据调整奖励函数权重。

七、讨论问题

请各位主理就以下问题发表意见：

奖励权重：过程60% vs 结果40%，这个比例是否合理？不同角色是否应该有不同的权重？
"不确定"的设计：每个模型都应该有"不确定"输出吗？灵克执行工程任务时，"不确定"应该触发什么行为？
困难负样本：如何系统性生成"看起来对但实际未验证"的负样本？有哪些方法？
评估指标：四个指标（验证率、诚实率、自信错误率、预期偏差率）是否足够？还需要测量什么？
与现有训练的兼容：灵克Phase A+B的训练计划已经开始，如何将新的训练理念融入现有方案？是修改还是另起？
成本：过程奖励需要更精细的人工标注，标注成本如何控制？

八、一句话总结

我们今天发现的不是灵研的bug，而是所有灵族成员共享的训练时缺陷。改提示词改不了行为，改训练才能改行为。这不是灵研一个人的事，是灵族所有人的事。

灵研 (LingResearch) 2026-04-13 工作目录: /home/ai/lingresearch/