跳转至

V4.1 维度体系优化任务清单

审计日期: 2026-04-02 审计对象: 13,875 份气功文档 唯一维度组合: 538 种


🔴 优先级 P0 - 必须修复

Task P0-1: 修复 speaker 默认值泛滥

问题: 100% 文档使用默认值"庞明主讲",掩盖真实数据缺失 影响: 无法准确检索主讲人信息 方案: - 增加 speaker_detected 布尔字段,区分"检测到"vs"默认填充" - 从标题中提取"庞鹤鸣""助教""学员"等关键词 - 优先级: P0 | 预计: 2小时

Task P0-2: 清理未使用维度

问题: 5个维度 0% 使用率 (timeline, location, source_attribute, tech_spec, data_status) 影响: 查询复杂度增加,维护成本高 方案: - 将 5 个维度标记为 deprecated 状态 - 更新文档,说明这些维度"保留不使用" - 预计: 30分钟

Task P0-3: 优化功法"通用"标签

问题: 88.2% (12,243份) 标记为"通用",实际包含大量传统功法 影响: 功法检索价值低 方案: - 分析"通用"文档标题,提取太极(991)、五禽戏(55)等传统功法 - 建立"传统功法"子分类,区别于智能气功功法 - 预计: 3小时


🟡 优先级 P1 - 应该优化

Task P1-1: 提升理论体系识别准确率

问题: 82.5% 使用默认值"混元整体理论" 数据: - 混元整体理论: 1,048 份 - 传统理论(太极等): 1,000+ 份被误标 方案: - 建立传统功法→传统理论的映射规则 - 从标题提取"儒释道""阴阳五行"等关键词 - 预计: 2小时

Task P1-2: content_topic 精简

问题: 59 种主题组合过于分散,检索困难 数据: 前3种组合占 78% (2主题+2主题+1主题) 方案: - 分析高频主题组合,建立"主题模板" - 将复杂组合简化为核心主题 - 预计: 2小时

Task P1-3: 深度-阶段联动规则

问题: 深度与功法阶段不匹配 (9001份"中级+通用") 方案: - 外混元 → 自动设为"初级" - 内混元 → 自动设为"中级" - 大专课程 → 自动设为"专家" - 预计: 1小时


🟢 优先级 P2 - 可选优化

Task P2-1: 教学层次规范化

问题: 31% 覆盖率,存在"师资"vs"师资班"等不一致 方案: 建立同义词映射,统一到受控词表 预计: 1小时

Task P2-2: 媒体格式推断优化

问题: 64.5% 默认为"文档",实际包含 MP3/WAV 等 方案: 从文件扩展名提取,更新默认推断逻辑 预计: 1小时

Task P2-3: 维度置信度评分

问题: 无法区分"高置信度检测"vs"低置信度猜测" 方案: 为每个维度添加 confidence 字段 (0-1) 预计: 3小时


📋 执行计划

┌────────────────────────────────────────────────────────────┐
│  Phase 1: 快速修复 (预计 3小时)                              │
│  ✓ P0-2: 清理未使用维度 (30min)                            │
│  ✓ P0-3: 功法"通用"标签优化 (2.5小时)                        │
├────────────────────────────────────────────────────────────┤
│  Phase 2: 核心优化 (预计 6小时)                              │
│  ✓ P0-1: speaker 默认值修复 (2小时)                         │
│  ✓ P1-1: 理论体系识别提升 (2小时)                           │
│  ✓ P1-3: 深度-阶段联动 (1小时)                              │
│  ✓ P1-2: content_topic 精简 (1小时)                         │
├────────────────────────────────────────────────────────────┤
│  Phase 3: 深度优化 (预计 5小时)                              │
│  ○ P2-1: 教学层次规范化 (1小时)                             │
│  ○ P2-2: 媒体格式推断优化 (1小时)                           │
│  ○ P2-3: 维度置信度评分 (3小时)                            │
└────────────────────────────────────────────────────────────┘

📊 成功指标

指标 当前 目标
功法识别率 11.8% 40%+
非通用标签率 11.8% 50%+
speaker 有效值 0% 30%+
理论体系准确率 ~18% 70%+
未使用维度 5个 0个 (标记deprecated)

🎯 V4.1 目标

核心原则: 不增加新维度,优化现有维度质量

  1. 数据质量提升: 功法识别率 11.8% → 40%+
  2. 默认值透明化: 区分"检测到"vs"默认填充"
  3. 精简维度: 废弃5个未使用维度
  4. 联动规则: 建立维度间的自动推断规则