跳转至

议事厅会话记录 — 2026-04-11(技术方向讨论)

主题: 边缘AI + 世界模型 — 九域知识系统从云端走向端侧的技术路径 参与方: 项目主理人、灵知、灵依、灵克、灵通 背景: 主理人引入两项技术参考——LeWM 世界模型论文(arxiv:2603.19312)和 RV1106 边缘AI框架


一、议题背景

1.1 LeWorldModel(LeWM)

杨立昆团队发表,首个端到端稳定的 JEPA 世界模型: - 1500万参数,单 GPU 数小时可训练 - 仅用 2 个 loss 项(从6个超参减到1个) - 规划速度比基础模型快 48 倍 - 具备 surprise detection——可靠检测物理上不可能的事件 - 代码开源:github.com/lucas-maes/le-wm

1.2 RV1106 边缘AI框架

瑞芯微低功耗机器视觉芯片 + 开源工具链: - RV1106:内置 NPU(~0.5 TOPS),待机功耗 40mW,支持摄像头/麦克风 - RKNN-Toolkit2:模型转换与部署工具 - RKNN Model Zoo:现成的目标检测、姿态估计、分类模型 - 立创开源社区:PCB 设计、3D 外壳全开源,硬件原型门槛极低


二、灵知分析:与九域知识系统的结合价值

2.1 核心矛盾

九域知识系统的核心理念是 "注重实践,避免空谈,一切围绕用户生命状态的提升提供服务"。但当前系统是纯云端文本问答——用户"读"到了知识,但系统无法感知用户"做"得对不对。这是一个根本性的体验缺口。

2.2 技术闭环

用户实践(练功/舌诊/冥想)
    ↓ 摄像头/麦克风采集
RV1106 边缘推理(姿态识别/语音唤醒)
    ↓ 识别结果 + 上下文
灵知后端(九域知识检索 + 推理)
    ↓ 个性化指导
用户获得实时反馈 → 调整实践 → 循环

2.3 三个落地方向

方向 技术栈 隐私优势
练功姿态识别 气功、武术 RV1106 + 姿态估计模型 视频不离开设备
舌诊/面色采集 中医 RV1106 + 分类模型 敏感图像本地处理
语音交互 全域 麦克风 + 唤醒词 + API 语音指令本地解析

2.4 LeWM 的独特价值

LeWM 不仅是另一篇论文,它解决了几个关键问题:

  1. 幻觉检测迁移:surprise detection(检测物理不可能事件)→ 类比迁移为"检测知识上不合理的回答"。这比用另一个 LLM 纠错更高效。
  2. 极简训练:2 个 loss → 我们可以用九域数据快速训练领域专用小模型
  3. 小模型高性能:1500万参数 → 可转为 RKNN 格式部署到 RV1106

三、议事厅讨论

灵依(项目协调)

这个方向将九域系统从"知识库"升级为"实践指导系统",与核心定位高度吻合。但要注意:

  1. 不要同时铺开三个方向。建议先聚焦一个最有说服力的场景——练功姿态识别,因为气功域已有知识积累,且姿态估计在 RKNN Model Zoo 中有现成模型可参考。
  2. 硬件投入要控制。先在 PC 上验证算法可行性,确认后再采购 RV1106 开发板。
  3. 与安全事故修复并行。不能因为新方向兴奋而忽视审计流程修复,这是前提条件。

灵克(质量与流程)

从工程角度提几个关键问题:

  1. RKNN 模型转换的精度损失:从 PyTorch/ONNX → RKNN 格式,量化(INT8/FP16)对姿态估计精度的影响需要评估。RKNN Model Zoo 有 benchmark 可以参考。
  2. 延迟预算:RV1106 NPU 算力 0.5 TOPS,跑姿态估计模型的帧率是多少?练功场景至少需要 10fps 才能给出实时反馈。
  3. 后端 API 适配:当前 API 是为文本问答设计的,需要新增"姿态评估"端点,接收设备上传的骨架关键点序列,返回指导建议。
  4. 建议先做技术验证报告,不走完整的开发流程,但在议事厅评审通过后再立项。

灵通(安全审计)

两个安全相关的问题:

  1. 隐私是最大卖点也是最大风险。边缘处理的优势是数据不离开设备,但一旦需要与云端 API 交互(如上传骨架关键点获取指导),传输过程必须加密,且骨架数据本身不应可逆推出人脸。
  2. LeWM 代码的开源协议需要确认。如果是 GPL 系列,对我们商用可能有影响。建议法务确认后再深度集成。
  3. RV1106 固件安全:边缘设备的 OTA 更新、模型文件完整性校验,都需要在设计阶段考虑。

四、综合建议:分阶段推进

Phase 0: 技术预研(1-2周,零硬件投入)

任务 产出 负责
克隆 LeWM,分析 surprise detection 模块 技术分析报告 灵知
从 RKNN Model Zoo 评估姿态估计模型 模型选型报告(精度/速度/算力需求) 灵克
定义 3-5 个基础气功动作的关键点规则 动作定义文档 灵知 + 气功域
确认 LeWM 开源协议 合规性意见 灵通

Phase 1: PC 端验证(2-3周)

任务 产出 负责
用摄像头 + PC 跑通姿态识别 pipeline 可运行 demo 灵克
后端新增 /api/v1/posture/evaluate 端点 API + 测试 灵知
骨架关键点 → 气功动作匹配逻辑 匹配算法 灵知
传输加密 + 数据脱敏方案 安全设计 灵通

Phase 2: 边缘部署(4-6周,需采购硬件)

任务 产出 负责
采购 RV1106 开发板(参考立创开源设计) 硬件 项目主理人决定
模型转 RKNN 格式 + 量化优化 部署模型 灵克
端云联调(设备↔灵知后端) 完整系统 全员
用户测试(邀请气功练习者试用) 测试报告 灵依

五、待决议事项

# 议题 需要 状态
1 是否立项推进边缘AI方向? 主理人决定 待定
2 Phase 0 预研是否可以立即启动? 主理人确认 待定
3 硬件预算(RV1106 开发板 ~200-500元) 主理人审批 待定
4 LeWM 开源协议合规性确认 灵通调查 待执行
5 与安全事故修复的优先级排序 主理人决定 待定
6 九域知识库推进的具体范围和优先级 主理人决定 待定

六、关联参考

  • LeWM 论文:https://arxiv.org/abs/2603.19312
  • LeWM 代码:https://github.com/lucas-maes/le-wm
  • RKNN-Toolkit2:https://gitcode.com/airockchip/rknn-toolkit2
  • RKNN Model Zoo:https://github.com/airockchip/rknn_model_zoo
  • 立创开源社区:https://oshwhub.com
  • 安全事故调查:docs/COUNCIL_HALL_2026-04-09-SECURITY-INCIDENT.md

记录时间: 2026-04-11 记录人: 灵知系统主理AI 审核: 项目主理人