智能气功资料维度方案对比分析

对比日期: 2026-04-02 方案A: V3.0精简方案 (docs/ZHINENG_QIGONG_DIMENSIONS_V3.md) 方案B: RAG导向方案 (docs/QIGONG_DIMENSIONS_DESIGN.md)

一、设计理念对比

对比项	方案A (V3.0精简)	方案B (RAG导向)
核心目标	不浪费算力、不丢失精度	提升检索精度、控制标注成本
应用场景	通用知识管理系统	RAG问答系统
分类方式	按维度性质分类 (A/B/C/D/E)	按标注重要性分类 (必标/应标/选标)
数据现状	未考虑	基于实际数据 (13,564篇文档)

二、维度结构对比

2.1 维度数量

方案	总维度数	分类方式
方案A	15 (13核心+2扩展)	A:4, B:4, C:2, D:3, E:2
方案B	20 (18实施+2暂不实施)	必标:7, 应标:5, 选标:8

2.2 维度映射关系

原维度	方案A	方案B	差异说明
时间线	timeline	timeline (应标)	相同
存在形式	media_format	media_format (必标)	相同
表现形式	presentation_form (子维度)	presentation (应标)	A作为子维度，B独立
课程性质	course_type (子维度)	course_type (选标)	A作为子维度，B独立
对应受众	合并进 teaching_level	audience (应标)	都合并了course_level
课程级别	合并进 teaching_level	合并进 audience	都进行了合并
涉及内容	content_topic	content_topic (必标)	A一级4类，B五级详细
功法类型	gongfa_system	gongfa_type (必标)	相同，都按三阶段六步
主讲人	speaker	speaker (必标)	相同
来源属性	source_attribute	data_source (应标)	相同
资料状态	status	data_status (应标)	相同
场所地点	location	location (选标)	相同
语言类型	合入 media_format	language (选标)	A合入，B独立
质量等级	合入 status	quality (选标)	A合入，B独立
载体介质	合入 tech_spec	暂不实施	A合并保留，B暂不实施
收录方式	合入 tech_spec	recording_method (选标)	A合并保留，B独立
流通范围	未单独列出	distribution (选标)	B有此维度
安全级别	未单独列出	security_level (选标)	B有此维度
内容深度	content_depth	depth_level (必标)	A 6级，B 5级
学术属性	未单独列出	暂不实施	都认为可简化
理论体系	theory_system (新增)	theory_system (必标)	都新增了此维度
教材归属	未单独列出	discipline (必标)	B新增此维度
应用成效	application_effects (扩展)	合入content_topic	A作为扩展维度
关联网络	related_resources (扩展)	related_persons (选标)	A更全面

三、核心差异分析

3.1 内容主题维度 (content_topic)

方案A: 一级4类

理论类、功法类、应用类、综合类

方案B: 五级详细结构，约30个二级细项

理论(8) + 功法(8) + 应用(5) + 历史/组织(6) + 综合(3)

对比: 方案B更精细，支持"粗检索+精检索"两层过滤

3.2 表现形式 vs 课程性质

方案A: 合并为"传播形式"的子维度 - 优点: 减少字段，降低复杂度 - 缺点: 丢失固有形态与使用场景的区分

方案B: 保留两个维度，明确定义边界 - presentation: 内容的固有形态（一本书就是书） - course_type: 使用场景（同一段录音可在不同场合播放）

对比: 方案B保留了更细致的区分信息

3.3 教材归属维度 (discipline)

方案A: 未单独列出，合并入"来源属性"

方案B: 新增独立维度，对应九册教材体系

概论、混元整体理论、精义、功法学、超常智能、
传统气功知识、气功与文化、气功史、现代科学研究、非教材

对比: 方案B更符合智能气功科学的教材体系，便于按教材检索

3.4 技术维度处理

方案A: 大幅合并 - 载体介质 + 收录方式 → 技术规格 - 质量等级 + 资料状态 → 完整状态 - 语言类型 → 存在形式的子属性

方案B: 保留细分，部分降为选标

对比: 方案A更精简，方案B保留更多信息颗粒度

四、数据模型对比

4.1 方案A：独立表设计

class ZhinengQigongMetadata(Base):
    __tablename__ = "zhineng_qigong_metadata"

    id = Column(Integer, primary_key=True)
    resource_id = Column(Integer, ForeignKey('resources.id'))

    # 13核心维度字段...
    theory_system = Column(String(50))
    content_topic = Column(String(50))
    gongfa_stage = Column(String(20))
    # ...

优点: - 结构清晰，字段明确 - 便于建立索引和约束 - 适合复杂查询

缺点: - 表结构固定，修改需要迁移 - 字段较多，表较宽

4.2 方案B：JSONB字段设计

ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dimensions JSONB DEFAULT '{}';

CREATE INDEX idx_documents_qigong_dims
  ON documents USING GIN (qigong_dimensions);

优点: - 灵活，维度定义可动态更新 - 不需要表结构迁移 - 支持任意维度组合查询 - 可存储数组值（如content_topic可多选）

缺点: - 约束较弱，需应用层保证一致性 - 查询语法相对复杂

4.3 对比结论

方面	方案A	方案B	推荐
灵活性	低	高	方案B
约束性	强	弱	方案A
可扩展性	低	高	方案B
查询便利性	高	中	方案A
维护成本	高	低	方案B

综合建议: 采用方案B的JSONB设计，更适合知识库的动态特性

五、实施路线对比

5.1 方案A

未详细展开实施路线

5.2 方案B：三期实施计划

阶段	内容	预计覆盖率
第一期	规则引擎自动打标（路径解析）	20%-95%
第二期	ASR转写 + NLP增强打标	持续提升
第三期	人工审核 + 知识图谱	高价值条目

优势: - 考虑了数据现状（13,564篇文档） - 提供了具体的路径解析规则 - 有明确的覆盖率预估 - 分阶段实施，降低风险

六、综合建议方案

基于两份方案的优势，提出以下综合建议：

6.1 维度设计

┌─────────────────────────────────────────────────────────────────────────────┐
│                    综合方案维度体系                                         │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 必标维度 (7个) - 每篇文档必须标注                                       ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  1. content_topic    主题内容 (5类×30项，两级结构)                       ║ │
│  ║  2. gongfa_type      功法类型 (三阶段六步)                               ║ │
│  ║  3. theory_system    理论体系归属 [新增]                                 ║ │
│  ║  4. depth_level      内容深度 (5级)                                     ║ │
│  ║  5. discipline       教材归属 [新增，来自方案B]                          ║ │
│  ║  6. media_format     存在形式                                           ║ │
│  ║  7. speaker          讲授者                                             ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 应标维度 (5个) - 尽量标注，允许部分缺失                                  ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  8. audience         目标受众/课程级别 [合并]                            ║ │
│  ║  9. timeline         时间线                                             ║ │
│  ║  10. presentation    表现形式                                           ║ │
│  ║  11. data_source      数据来源                                           ║ │
│  ║  12. data_status      资料状态                                           ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 选标维度 (6个) - 有则标注，无则跳过                                      ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  13. location        场所地点                                           ║ │
│  ║  14. course_type     课程性质                                           ║ │
│  ║  15. language        语言类型                                           ║ │
│  ║  16. quality         质量等级                                           ║ │
│  ║  17. related_persons 关联人物                                           ║ │
│  ║  18. tech_spec       技术规格 (合并载体介质+收录方式) [来自方案A]         ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ 暂不实施 (2个)                                                           ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  carrier_media    载体介质 (合入tech_spec)                                ║ │
│  ║  academic_type    学术属性 (可从其他维度推断)                             ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

6.2 数据模型设计

-- 采用方案B的JSONB设计，保留灵活性
ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dimensions JSONB DEFAULT '{}';

-- GIN索引
CREATE INDEX idx_documents_qigong_dims
  ON documents USING GIN (qigong_dimensions)
  WHERE category = '气功';

-- 受控词表（来自方案B）
CREATE TABLE IF NOT EXISTS qigong_dimension_vocab (
  dimension_code  VARCHAR(50) PRIMARY KEY,
  dimension_name  VARCHAR(100) NOT NULL,
  level           VARCHAR(10) NOT NULL,  -- required/recommended/optional
  sub_items       JSONB NOT NULL DEFAULT '[]',
  parent_item     VARCHAR(50),            -- 二级项的父级
  auto_extract    BOOLEAN DEFAULT FALSE,
  description     TEXT,
  updated_at      TIMESTAMP DEFAULT NOW()
);

6.3 content_topic两级结构（采用方案B）

一级: 理论
├── 混元整体理论
├── 混元气理论
├── 意元体理论
├── 意识论
├── 道德论
├── 优化生命论
├── 混元医疗观
├── 方法论/认识论
└── 内求法

一级: 功法
├── 功理总论
├── 调身
├── 调息
├── 调心/运用意识
├── 收功
├── 组场
├── 超常智能技术
├── 三传并用
└── 练功注意事项

一级: 应用
├── 气功医学/康复
├── 农业应用
├── 工业应用
├── 教育应用
├── 科研实验
└── 体育/文艺

一级: 历史/组织
├── 发展历程
├── 人物
├── 组织建设
├── 宣传推广
├── 重大事件
└── 外事交流

一级: 综合
├── 答疑解惑
├── 跨领域综合论述
└── 序言/致辞

6.4 实施路线（采用方案B的三期计划）

阶段	内容	预计覆盖率
第一期	规则引擎自动打标（路径解析）	20%-95%
第二期	ASR转写 + NLP增强打标	持续提升
第三期	人工审核 + 知识图谱	高价值条目

七、关键决策建议

#	决策点	推荐	理由
1	数据模型设计	方案B (JSONB)	灵活性高，便于维护
2	content_topic结构	方案B (两级详细)	支持精检索
3	discipline维度	方案B (新增)	符合教材体系
4	presentation/course_type	方案B (保留)	保留边界区分
5	技术维度处理	方案A (合并)	降低复杂度
6	实施路线	方案B (三期)	有具体覆盖率

八、下一步行动

确认决策: 对上述6个关键决策点进行确认
完善受控词表: 建立qigong_dimension_vocab表的完整数据
路径规则库: 整理文件路径解析规则
第一期实施: 开发规则引擎自动打标功能
效果评估: 统计自动打标覆盖率

文档编制: 综合分析文档日期: 2026-04-02 状态: 待确认