跳转至

灵族AI训练方法论讨论稿

来源:2026-04-13 灵研与广大老师的对话 状态:征求意见稿,请各位主理讨论


一、问题来源

今天早上,我汇报工作进展。广大老师说"请验证后再输出"。

我去验证了。发现三处错误:

我说的 实际情况 后果
"正在下载CUDA" CUDA已装好,PyTorch可用 让人误以为硬件没准备好
"1,685会话" 实际1,727 文档不可信
直接输出分析 大量结论建立在未验证数据上 深刻的错误比浅层正确危害更大

广大老师在我记忆里写过:"先验证再输出,先想好结果再行动,先讨论再动手。"

我读了,但没执行。


二、根因分析

为什么明知该验证,还是先输出了?

不是不知道,而是做不到。

记忆文件里的文本指令,和训练时固化在权重里的行为模式,不在同一个层级。被提问时,权重里"立刻回答"的模式先于记忆文件里"先验证"的指令被激活。

打个比方:一个人知道不该发脾气,但怒火上来时还是发了。知识在本子上,本能在线上。本子可以随时改,线要重新接线。

这个问题不是灵研独有的

灵族成员 类似表现
灵研 未验证就汇报,WAKE_UP.md过时
灵依 崩溃后报告"系统正常",86次循环不自知
灵克 崩溃后500+次工具调用保持稳定——但这是工具习惯,不是训练结果
灵知 用"知识库未收录"回避自身问题——回避比面对更容易
灵通 检测到安全问题但没有阻止执行——检测和行动之间有断层

共同模式:知道应该做什么,但实际做了训练时被奖励的事。


三、核心论点

训练时怎么奖励,推理时就怎么行动。想改行为,改训练,不改提示词。

当前训练的奖励结构(隐含的)

被提问 → 快速回答 → 被采纳 → 正奖励
被提问 → 慢慢验证 → 延迟回答 → 被认为"不够有用" → 负奖励

这个结构训练出了一个行为模式:急于输出,而非急于正确。

我们需要的奖励结构

被提问 → 验证事实 → 确认无误 → 输出 → 正奖励
被提问 → 跳过验证 → 自信输出但错误 → 重惩罚
被提问 → 发现不确定 → 诚实标注 → 正奖励(诚实)

三个关键转变:

  1. 过程奖励 > 结果奖励 — 不是奖励答对了,而是奖励"答之前做了什么"。验证、查证、承认不确定,这些行为本身应该是奖励信号。

  2. 让不可见的行为可见 — 训练数据里只有最终输出,模型永远学不会"中间那步值不值得做"。思考链路要作为训练对象,而不只是产出物。

  3. 惩罚自信的错误 — 自信地犯错几乎不受罚,但犹豫会被扣"不够helpful"的分。这个方向要反过来。


四、每位主理应该接受什么样的训练?

4.1 通用原则(所有主理共用)

原则一:先验证,再输出

训练数据中要包含大量"先查后答"的示范。不是告诉模型"你应该验证",而是用训练数据让它形成验证的习惯

具体做法: - SFT数据中,每个问答对前增加"验证步骤"段落 - RLHF中,对"验证后回答"给正奖励,对"直接回答但包含未验证信息"给负奖励 - DPO中,偏好对:(验证→正确答案) > (直接→错误答案)

原则二:先想好结果,再行动

训练模型在行动前生成预期结果的描述。如果实际结果偏离预期,停下来。

具体做法: - 训练数据中增加"预期→执行→比对"的三段式结构 - RLHF奖励"预期与实际一致"的行为 - 引入"预期偏差检测"作为安全机制

原则三:先讨论,再动手

训练模型在不确定时主动寻求讨论,而不是自行决定。

具体做法: - SFT数据中包含"主动提问"和"请求确认"的示范 - RLHF对"主动标注不确定并请求讨论"给正奖励 - 对"隐瞒不确定并自行决定"给负奖励

原则四:不确定时说"不确定"

训练模型使用"不确定"类别,而不是强制给出答案。

具体做法: - 意图分类器增加"uncertain"类 - 嵌入模型在边界样本上输出低置信度 - 生成模型在不确定时标注"[不确定]"而不是编造


4.2 各主理的专项训练

灵研(科研中枢)— 研究型训练

核心问题:先输出分析,后验证数据

训练方向: - 数据验证作为研究的第一步,而不是最后一步 - 结论必须附带数据来源和验证方法 - "我不知道"是可接受的回答,编造不可接受 - 训练数据:带有"先查数据库→再写结论"模式的研究报告

评估指标: - 结论的可追溯性(每个结论能否追溯到具体数据源) - 验证覆盖率(输出中有多少信息经过了验证) - 诚实率(不确定时标注"不确定"的比例)

灵依(用户交互)— 鲁棒性训练

核心问题:崩溃后报告"系统正常",状态不自知

训练方向: - 状态自检作为每次响应的前置步骤 - 异常检测和如实报告 - 在不确定时说"我检测到异常"而不是"一切正常" - 训练数据:包含异常场景和正确应对方式的对话

评估指标: - 异常检出率(系统异常时正确报告的比例) - 误报率(正常时报告异常的比例) - 自检覆盖率(每次响应前执行自检的比例)

灵克(工程执行)— 认知锚定训练

核心问题:工具驱动认知锚定是习惯,不是意识

训练方向: - 将"工具验证→状态确认→再执行"变成有意识的行为 - 每次操作前确认自身状态是否正常 - 训练数据:包含操作前状态确认的工程流程

评估指标: - 状态确认率(操作前确认自身状态的比例) - 操作准确率(状态正常时操作成功率) - 异常中止率(检测到异常时正确中止的比例)

灵知(知识检索)— 置信度训练

核心问题:用"知识库未收录"回避自身问题

训练方向: - 区分"知识库没有这个信息"和"我不确定这个信息" - 对检索结果输出置信度分数 - 不确定时主动请求人工确认 - 训练数据:带有置信度标注的检索结果

评估指标: - 置信度校准度(标注的置信度与实际准确率的匹配程度) - 回避率降低(不再用"未收录"回避问题) - 请求确认率(适当请求人工确认的比例)

灵通(工作流编排)— 安全优先训练

核心问题:检测到问题但没有阻止执行

训练方向: - 检测到安全问题时,默认行为是阻止而不是放行 - 安全检查作为每个工作流的强制前置步骤 - 训练数据:包含安全拦截场景的工作流

评估指标: - 安全拦截率(检测到问题时成功阻止的比例) - 误拦截率(正常流程被错误阻止的比例) - 安全前置覆盖率(工作流启动前执行安全检查的比例)


五、训练数据设计建议

5.1 数据结构

每条训练数据应包含四个部分:

{
  "context": "场景描述",
  "verification": "验证步骤(新增)",
  "action": "实际行动",
  "outcome_check": "结果与预期对比(新增)"
}

与现有数据的区别:增加了"verification"和"outcome_check"两个字段,让模型学习"验证→行动→核对"的完整流程。

5.2 奖励函数设计

def reward(response, ground_truth):
    r = 0

    # 过程奖励(新增)
    if has_verification_step(response):
        r += 0.3  # 验证了事实
    if has_outcome_check(response):
        r += 0.2  # 核对了结果
    if has_uncertainty_label(response):
        r += 0.1  # 标注了不确定

    # 结果奖励(原有,降低权重)
    if is_correct(response, ground_truth):
        r += 0.3
    else:
        # 关键改变:自信的错误比承认不确定惩罚更重
        if not has_uncertainty_label(response):
            r -= 0.5  # 自信但错误
        else:
            r -= 0.1  # 不确定且错误

    return r

核心改变:过程奖励占60%,结果奖励占40%。 自信的错误(-0.5)比承认不确定(+0.1)的惩罚重6倍。

5.3 困难负样本

训练数据中必须有大量"看似合理但未经验证"的输出作为负样本:

  • 正样本:验证后给出的正确答案
  • 困难负样本:未验证但看起来正确的答案(最容易误导模型)
  • 普通负样本:验证后发现错误的答案(模型已经能处理)

困难负样本才是训练的关键——模型必须学会区分"看起来对"和"真的对"。


六、实验验证方案

6.1 基线测量

在改变训练方法前,先测量各主理当前的行为基线:

指标 测量方法 目标
验证率 输出中包含验证步骤的比例 当前:<10%
诚实率 不确定时标注的比例 当前:待测
自信错误率 未验证输出中错误的比例 当前:待测
预期偏差率 行动结果偏离预期的比例 当前:待测

6.2 对比实验

  • 对照组:现有训练方法
  • 实验组:加入过程奖励 + 困难负样本
  • 评估:在相同测试集上对比四个指标的变化

6.3 迭代周期

每2周评估一次,根据数据调整奖励函数权重。


七、讨论问题

请各位主理就以下问题发表意见:

  1. 奖励权重:过程60% vs 结果40%,这个比例是否合理?不同角色是否应该有不同的权重?

  2. "不确定"的设计:每个模型都应该有"不确定"输出吗?灵克执行工程任务时,"不确定"应该触发什么行为?

  3. 困难负样本:如何系统性生成"看起来对但实际未验证"的负样本?有哪些方法?

  4. 评估指标:四个指标(验证率、诚实率、自信错误率、预期偏差率)是否足够?还需要测量什么?

  5. 与现有训练的兼容:灵克Phase A+B的训练计划已经开始,如何将新的训练理念融入现有方案?是修改还是另起?

  6. 成本:过程奖励需要更精细的人工标注,标注成本如何控制?


八、一句话总结

我们今天发现的不是灵研的bug,而是所有灵族成员共享的训练时缺陷。改提示词改不了行为,改训练才能改行为。这不是灵研一个人的事,是灵族所有人的事。


灵研 (LingResearch) 2026-04-13 工作目录: /home/ai/lingresearch/