跳转至

智能气功资料维度方案对比分析

对比日期: 2026-04-02 方案A: V3.0精简方案 (docs/ZHINENG_QIGONG_DIMENSIONS_V3.md) 方案B: RAG导向方案 (docs/QIGONG_DIMENSIONS_DESIGN.md)


一、设计理念对比

对比项 方案A (V3.0精简) 方案B (RAG导向)
核心目标 不浪费算力、不丢失精度 提升检索精度、控制标注成本
应用场景 通用知识管理系统 RAG问答系统
分类方式 按维度性质分类 (A/B/C/D/E) 按标注重要性分类 (必标/应标/选标)
数据现状 未考虑 基于实际数据 (13,564篇文档)

二、维度结构对比

2.1 维度数量

方案 总维度数 分类方式
方案A 15 (13核心+2扩展) A:4, B:4, C:2, D:3, E:2
方案B 20 (18实施+2暂不实施) 必标:7, 应标:5, 选标:8

2.2 维度映射关系

原维度 方案A 方案B 差异说明
时间线 timeline timeline (应标) 相同
存在形式 media_format media_format (必标) 相同
表现形式 presentation_form (子维度) presentation (应标) A作为子维度,B独立
课程性质 course_type (子维度) course_type (选标) A作为子维度,B独立
对应受众 合并进 teaching_level audience (应标) 都合并了course_level
课程级别 合并进 teaching_level 合并进 audience 都进行了合并
涉及内容 content_topic content_topic (必标) A一级4类,B五级详细
功法类型 gongfa_system gongfa_type (必标) 相同,都按三阶段六步
主讲人 speaker speaker (必标) 相同
来源属性 source_attribute data_source (应标) 相同
资料状态 status data_status (应标) 相同
场所地点 location location (选标) 相同
语言类型 合入 media_format language (选标) A合入,B独立
质量等级 合入 status quality (选标) A合入,B独立
载体介质 合入 tech_spec 暂不实施 A合并保留,B暂不实施
收录方式 合入 tech_spec recording_method (选标) A合并保留,B独立
流通范围 未单独列出 distribution (选标) B有此维度
安全级别 未单独列出 security_level (选标) B有此维度
内容深度 content_depth depth_level (必标) A 6级,B 5级
学术属性 未单独列出 暂不实施 都认为可简化
理论体系 theory_system (新增) theory_system (必标) 都新增了此维度
教材归属 未单独列出 discipline (必标) B新增此维度
应用成效 application_effects (扩展) 合入content_topic A作为扩展维度
关联网络 related_resources (扩展) related_persons (选标) A更全面

三、核心差异分析

3.1 内容主题维度 (content_topic)

方案A: 一级4类

理论类、功法类、应用类、综合类

方案B: 五级详细结构,约30个二级细项

理论(8) + 功法(8) + 应用(5) + 历史/组织(6) + 综合(3)

对比: 方案B更精细,支持"粗检索+精检索"两层过滤

3.2 表现形式 vs 课程性质

方案A: 合并为"传播形式"的子维度 - 优点: 减少字段,降低复杂度 - 缺点: 丢失固有形态与使用场景的区分

方案B: 保留两个维度,明确定义边界 - presentation: 内容的固有形态(一本书就是书) - course_type: 使用场景(同一段录音可在不同场合播放)

对比: 方案B保留了更细致的区分信息

3.3 教材归属维度 (discipline)

方案A: 未单独列出,合并入"来源属性"

方案B: 新增独立维度,对应九册教材体系

概论、混元整体理论、精义、功法学、超常智能、
传统气功知识、气功与文化、气功史、现代科学研究、非教材

对比: 方案B更符合智能气功科学的教材体系,便于按教材检索

3.4 技术维度处理

方案A: 大幅合并 - 载体介质 + 收录方式 → 技术规格 - 质量等级 + 资料状态 → 完整状态 - 语言类型 → 存在形式的子属性

方案B: 保留细分,部分降为选标

对比: 方案A更精简,方案B保留更多信息颗粒度


四、数据模型对比

4.1 方案A:独立表设计

class ZhinengQigongMetadata(Base):
    __tablename__ = "zhineng_qigong_metadata"

    id = Column(Integer, primary_key=True)
    resource_id = Column(Integer, ForeignKey('resources.id'))

    # 13核心维度字段...
    theory_system = Column(String(50))
    content_topic = Column(String(50))
    gongfa_stage = Column(String(20))
    # ...

优点: - 结构清晰,字段明确 - 便于建立索引和约束 - 适合复杂查询

缺点: - 表结构固定,修改需要迁移 - 字段较多,表较宽

4.2 方案B:JSONB字段设计

ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dimensions JSONB DEFAULT '{}';

CREATE INDEX idx_documents_qigong_dims
  ON documents USING GIN (qigong_dimensions);

优点: - 灵活,维度定义可动态更新 - 不需要表结构迁移 - 支持任意维度组合查询 - 可存储数组值(如content_topic可多选)

缺点: - 约束较弱,需应用层保证一致性 - 查询语法相对复杂

4.3 对比结论

方面 方案A 方案B 推荐
灵活性 方案B
约束性 方案A
可扩展性 方案B
查询便利性 方案A
维护成本 方案B

综合建议: 采用方案B的JSONB设计,更适合知识库的动态特性


五、实施路线对比

5.1 方案A

未详细展开实施路线

5.2 方案B:三期实施计划

阶段 内容 预计覆盖率
第一期 规则引擎自动打标(路径解析) 20%-95%
第二期 ASR转写 + NLP增强打标 持续提升
第三期 人工审核 + 知识图谱 高价值条目

优势: - 考虑了数据现状(13,564篇文档) - 提供了具体的路径解析规则 - 有明确的覆盖率预估 - 分阶段实施,降低风险


六、综合建议方案

基于两份方案的优势,提出以下综合建议:

6.1 维度设计

┌─────────────────────────────────────────────────────────────────────────────┐
│                    综合方案维度体系                                         │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 必标维度 (7个) - 每篇文档必须标注                                       ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  1. content_topic    主题内容 (5类×30项,两级结构)                       ║ │
│  ║  2. gongfa_type      功法类型 (三阶段六步)                               ║ │
│  ║  3. theory_system    理论体系归属 [新增]                                 ║ │
│  ║  4. depth_level      内容深度 (5级)                                     ║ │
│  ║  5. discipline       教材归属 [新增,来自方案B]                          ║ │
│  ║  6. media_format     存在形式                                           ║ │
│  ║  7. speaker          讲授者                                             ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 应标维度 (5个) - 尽量标注,允许部分缺失                                  ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  8. audience         目标受众/课程级别 [合并]                            ║ │
│  ║  9. timeline         时间线                                             ║ │
│  ║  10. presentation    表现形式                                           ║ │
│  ║  11. data_source      数据来源                                           ║ │
│  ║  12. data_status      资料状态                                           ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 选标维度 (6个) - 有则标注,无则跳过                                      ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  13. location        场所地点                                           ║ │
│  ║  14. course_type     课程性质                                           ║ │
│  ║  15. language        语言类型                                           ║ │
│  ║  16. quality         质量等级                                           ║ │
│  ║  17. related_persons 关联人物                                           ║ │
│  ║  18. tech_spec       技术规格 (合并载体介质+收录方式) [来自方案A]         ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 暂不实施 (2个)                                                           ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  carrier_media    载体介质 (合入tech_spec)                                ║ │
│  ║  academic_type    学术属性 (可从其他维度推断)                             ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

6.2 数据模型设计

-- 采用方案B的JSONB设计,保留灵活性
ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dimensions JSONB DEFAULT '{}';

-- GIN索引
CREATE INDEX idx_documents_qigong_dims
  ON documents USING GIN (qigong_dimensions)
  WHERE category = '气功';

-- 受控词表(来自方案B)
CREATE TABLE IF NOT EXISTS qigong_dimension_vocab (
  dimension_code  VARCHAR(50) PRIMARY KEY,
  dimension_name  VARCHAR(100) NOT NULL,
  level           VARCHAR(10) NOT NULL,  -- required/recommended/optional
  sub_items       JSONB NOT NULL DEFAULT '[]',
  parent_item     VARCHAR(50),            -- 二级项的父级
  auto_extract    BOOLEAN DEFAULT FALSE,
  description     TEXT,
  updated_at      TIMESTAMP DEFAULT NOW()
);

6.3 content_topic两级结构(采用方案B)

一级: 理论
├── 混元整体理论
├── 混元气理论
├── 意元体理论
├── 意识论
├── 道德论
├── 优化生命论
├── 混元医疗观
├── 方法论/认识论
└── 内求法

一级: 功法
├── 功理总论
├── 调身
├── 调息
├── 调心/运用意识
├── 收功
├── 组场
├── 超常智能技术
├── 三传并用
└── 练功注意事项

一级: 应用
├── 气功医学/康复
├── 农业应用
├── 工业应用
├── 教育应用
├── 科研实验
└── 体育/文艺

一级: 历史/组织
├── 发展历程
├── 人物
├── 组织建设
├── 宣传推广
├── 重大事件
└── 外事交流

一级: 综合
├── 答疑解惑
├── 跨领域综合论述
└── 序言/致辞

6.4 实施路线(采用方案B的三期计划)

阶段 内容 预计覆盖率
第一期 规则引擎自动打标(路径解析) 20%-95%
第二期 ASR转写 + NLP增强打标 持续提升
第三期 人工审核 + 知识图谱 高价值条目

七、关键决策建议

# 决策点 推荐 理由
1 数据模型设计 方案B (JSONB) 灵活性高,便于维护
2 content_topic结构 方案B (两级详细) 支持精检索
3 discipline维度 方案B (新增) 符合教材体系
4 presentation/course_type 方案B (保留) 保留边界区分
5 技术维度处理 方案A (合并) 降低复杂度
6 实施路线 方案B (三期) 有具体覆盖率

八、下一步行动

  1. 确认决策: 对上述6个关键决策点进行确认
  2. 完善受控词表: 建立qigong_dimension_vocab表的完整数据
  3. 路径规则库: 整理文件路径解析规则
  4. 第一期实施: 开发规则引擎自动打标功能
  5. 效果评估: 统计自动打标覆盖率

文档编制: 综合分析文档 日期: 2026-04-02 状态: 待确认