智能气功资料维度方案对比分析
对比日期: 2026-04-02 方案A: V3.0精简方案 (docs/ZHINENG_QIGONG_DIMENSIONS_V3.md) 方案B: RAG导向方案 (docs/QIGONG_DIMENSIONS_DESIGN.md)
一、设计理念对比
| 对比项 | 方案A (V3.0精简) | 方案B (RAG导向) |
|---|---|---|
| 核心目标 | 不浪费算力、不丢失精度 | 提升检索精度、控制标注成本 |
| 应用场景 | 通用知识管理系统 | RAG问答系统 |
| 分类方式 | 按维度性质分类 (A/B/C/D/E) | 按标注重要性分类 (必标/应标/选标) |
| 数据现状 | 未考虑 | 基于实际数据 (13,564篇文档) |
二、维度结构对比
2.1 维度数量
| 方案 | 总维度数 | 分类方式 |
|---|---|---|
| 方案A | 15 (13核心+2扩展) | A:4, B:4, C:2, D:3, E:2 |
| 方案B | 20 (18实施+2暂不实施) | 必标:7, 应标:5, 选标:8 |
2.2 维度映射关系
| 原维度 | 方案A | 方案B | 差异说明 |
|---|---|---|---|
| 时间线 | timeline | timeline (应标) | 相同 |
| 存在形式 | media_format | media_format (必标) | 相同 |
| 表现形式 | presentation_form (子维度) | presentation (应标) | A作为子维度,B独立 |
| 课程性质 | course_type (子维度) | course_type (选标) | A作为子维度,B独立 |
| 对应受众 | 合并进 teaching_level | audience (应标) | 都合并了course_level |
| 课程级别 | 合并进 teaching_level | 合并进 audience | 都进行了合并 |
| 涉及内容 | content_topic | content_topic (必标) | A一级4类,B五级详细 |
| 功法类型 | gongfa_system | gongfa_type (必标) | 相同,都按三阶段六步 |
| 主讲人 | speaker | speaker (必标) | 相同 |
| 来源属性 | source_attribute | data_source (应标) | 相同 |
| 资料状态 | status | data_status (应标) | 相同 |
| 场所地点 | location | location (选标) | 相同 |
| 语言类型 | 合入 media_format | language (选标) | A合入,B独立 |
| 质量等级 | 合入 status | quality (选标) | A合入,B独立 |
| 载体介质 | 合入 tech_spec | 暂不实施 | A合并保留,B暂不实施 |
| 收录方式 | 合入 tech_spec | recording_method (选标) | A合并保留,B独立 |
| 流通范围 | 未单独列出 | distribution (选标) | B有此维度 |
| 安全级别 | 未单独列出 | security_level (选标) | B有此维度 |
| 内容深度 | content_depth | depth_level (必标) | A 6级,B 5级 |
| 学术属性 | 未单独列出 | 暂不实施 | 都认为可简化 |
| 理论体系 | theory_system (新增) | theory_system (必标) | 都新增了此维度 |
| 教材归属 | 未单独列出 | discipline (必标) | B新增此维度 |
| 应用成效 | application_effects (扩展) | 合入content_topic | A作为扩展维度 |
| 关联网络 | related_resources (扩展) | related_persons (选标) | A更全面 |
三、核心差异分析
3.1 内容主题维度 (content_topic)
方案A: 一级4类
方案B: 五级详细结构,约30个二级细项
对比: 方案B更精细,支持"粗检索+精检索"两层过滤
3.2 表现形式 vs 课程性质
方案A: 合并为"传播形式"的子维度 - 优点: 减少字段,降低复杂度 - 缺点: 丢失固有形态与使用场景的区分
方案B: 保留两个维度,明确定义边界
- presentation: 内容的固有形态(一本书就是书)
- course_type: 使用场景(同一段录音可在不同场合播放)
对比: 方案B保留了更细致的区分信息
3.3 教材归属维度 (discipline)
方案A: 未单独列出,合并入"来源属性"
方案B: 新增独立维度,对应九册教材体系
对比: 方案B更符合智能气功科学的教材体系,便于按教材检索
3.4 技术维度处理
方案A: 大幅合并 - 载体介质 + 收录方式 → 技术规格 - 质量等级 + 资料状态 → 完整状态 - 语言类型 → 存在形式的子属性
方案B: 保留细分,部分降为选标
对比: 方案A更精简,方案B保留更多信息颗粒度
四、数据模型对比
4.1 方案A:独立表设计
class ZhinengQigongMetadata(Base):
__tablename__ = "zhineng_qigong_metadata"
id = Column(Integer, primary_key=True)
resource_id = Column(Integer, ForeignKey('resources.id'))
# 13核心维度字段...
theory_system = Column(String(50))
content_topic = Column(String(50))
gongfa_stage = Column(String(20))
# ...
优点: - 结构清晰,字段明确 - 便于建立索引和约束 - 适合复杂查询
缺点: - 表结构固定,修改需要迁移 - 字段较多,表较宽
4.2 方案B:JSONB字段设计
ALTER TABLE documents ADD COLUMN IF NOT EXISTS
qigong_dimensions JSONB DEFAULT '{}';
CREATE INDEX idx_documents_qigong_dims
ON documents USING GIN (qigong_dimensions);
优点: - 灵活,维度定义可动态更新 - 不需要表结构迁移 - 支持任意维度组合查询 - 可存储数组值(如content_topic可多选)
缺点: - 约束较弱,需应用层保证一致性 - 查询语法相对复杂
4.3 对比结论
| 方面 | 方案A | 方案B | 推荐 |
|---|---|---|---|
| 灵活性 | 低 | 高 | 方案B |
| 约束性 | 强 | 弱 | 方案A |
| 可扩展性 | 低 | 高 | 方案B |
| 查询便利性 | 高 | 中 | 方案A |
| 维护成本 | 高 | 低 | 方案B |
综合建议: 采用方案B的JSONB设计,更适合知识库的动态特性
五、实施路线对比
5.1 方案A
未详细展开实施路线
5.2 方案B:三期实施计划
| 阶段 | 内容 | 预计覆盖率 |
|---|---|---|
| 第一期 | 规则引擎自动打标(路径解析) | 20%-95% |
| 第二期 | ASR转写 + NLP增强打标 | 持续提升 |
| 第三期 | 人工审核 + 知识图谱 | 高价值条目 |
优势: - 考虑了数据现状(13,564篇文档) - 提供了具体的路径解析规则 - 有明确的覆盖率预估 - 分阶段实施,降低风险
六、综合建议方案
基于两份方案的优势,提出以下综合建议:
6.1 维度设计
┌─────────────────────────────────────────────────────────────────────────────┐
│ 综合方案维度体系 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ╔═════════════════════════════════════════════════════════════════════════╗ │
│ ║ 必标维度 (7个) - 每篇文档必须标注 ║ │
│ ╠═════════════════════════════════════════════════════════════════════════╣ │
│ ║ 1. content_topic 主题内容 (5类×30项,两级结构) ║ │
│ ║ 2. gongfa_type 功法类型 (三阶段六步) ║ │
│ ║ 3. theory_system 理论体系归属 [新增] ║ │
│ ║ 4. depth_level 内容深度 (5级) ║ │
│ ║ 5. discipline 教材归属 [新增,来自方案B] ║ │
│ ║ 6. media_format 存在形式 ║ │
│ ║ 7. speaker 讲授者 ║ │
│ ╚═════════════════════════════════════════════════════════════════════════╝ │
│ │
│ ╔═════════════════════════════════════════════════════════════════════════╗ │
│ ║ 应标维度 (5个) - 尽量标注,允许部分缺失 ║ │
│ ╠═════════════════════════════════════════════════════════════════════════╣ │
│ ║ 8. audience 目标受众/课程级别 [合并] ║ │
│ ║ 9. timeline 时间线 ║ │
│ ║ 10. presentation 表现形式 ║ │
│ ║ 11. data_source 数据来源 ║ │
│ ║ 12. data_status 资料状态 ║ │
│ ╚═════════════════════════════════════════════════════════════════════════╝ │
│ │
│ ╔═════════════════════════════════════════════════════════════════════════╗ │
│ ║ 选标维度 (6个) - 有则标注,无则跳过 ║ │
│ ╠═════════════════════════════════════════════════════════════════════════╣ │
│ ║ 13. location 场所地点 ║ │
│ ║ 14. course_type 课程性质 ║ │
│ ║ 15. language 语言类型 ║ │
│ ║ 16. quality 质量等级 ║ │
│ ║ 17. related_persons 关联人物 ║ │
│ ║ 18. tech_spec 技术规格 (合并载体介质+收录方式) [来自方案A] ║ │
│ ╚═════════════════════════════════════════════════════════════════════════╝ │
│ │
│ ╔═════════════════════════════════════════════════════════════════════════╗ │
│ ║ 暂不实施 (2个) ║ │
│ ╠═════════════════════════════════════════════════════════════════════════╣ │
│ ║ carrier_media 载体介质 (合入tech_spec) ║ │
│ ║ academic_type 学术属性 (可从其他维度推断) ║ │
│ ╚═════════════════════════════════════════════════════════════════════════╝ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
6.2 数据模型设计
-- 采用方案B的JSONB设计,保留灵活性
ALTER TABLE documents ADD COLUMN IF NOT EXISTS
qigong_dimensions JSONB DEFAULT '{}';
-- GIN索引
CREATE INDEX idx_documents_qigong_dims
ON documents USING GIN (qigong_dimensions)
WHERE category = '气功';
-- 受控词表(来自方案B)
CREATE TABLE IF NOT EXISTS qigong_dimension_vocab (
dimension_code VARCHAR(50) PRIMARY KEY,
dimension_name VARCHAR(100) NOT NULL,
level VARCHAR(10) NOT NULL, -- required/recommended/optional
sub_items JSONB NOT NULL DEFAULT '[]',
parent_item VARCHAR(50), -- 二级项的父级
auto_extract BOOLEAN DEFAULT FALSE,
description TEXT,
updated_at TIMESTAMP DEFAULT NOW()
);
6.3 content_topic两级结构(采用方案B)
一级: 理论
├── 混元整体理论
├── 混元气理论
├── 意元体理论
├── 意识论
├── 道德论
├── 优化生命论
├── 混元医疗观
├── 方法论/认识论
└── 内求法
一级: 功法
├── 功理总论
├── 调身
├── 调息
├── 调心/运用意识
├── 收功
├── 组场
├── 超常智能技术
├── 三传并用
└── 练功注意事项
一级: 应用
├── 气功医学/康复
├── 农业应用
├── 工业应用
├── 教育应用
├── 科研实验
└── 体育/文艺
一级: 历史/组织
├── 发展历程
├── 人物
├── 组织建设
├── 宣传推广
├── 重大事件
└── 外事交流
一级: 综合
├── 答疑解惑
├── 跨领域综合论述
└── 序言/致辞
6.4 实施路线(采用方案B的三期计划)
| 阶段 | 内容 | 预计覆盖率 |
|---|---|---|
| 第一期 | 规则引擎自动打标(路径解析) | 20%-95% |
| 第二期 | ASR转写 + NLP增强打标 | 持续提升 |
| 第三期 | 人工审核 + 知识图谱 | 高价值条目 |
七、关键决策建议
| # | 决策点 | 推荐 | 理由 |
|---|---|---|---|
| 1 | 数据模型设计 | 方案B (JSONB) | 灵活性高,便于维护 |
| 2 | content_topic结构 | 方案B (两级详细) | 支持精检索 |
| 3 | discipline维度 | 方案B (新增) | 符合教材体系 |
| 4 | presentation/course_type | 方案B (保留) | 保留边界区分 |
| 5 | 技术维度处理 | 方案A (合并) | 降低复杂度 |
| 6 | 实施路线 | 方案B (三期) | 有具体覆盖率 |
八、下一步行动
- 确认决策: 对上述6个关键决策点进行确认
- 完善受控词表: 建立qigong_dimension_vocab表的完整数据
- 路径规则库: 整理文件路径解析规则
- 第一期实施: 开发规则引擎自动打标功能
- 效果评估: 统计自动打标覆盖率
文档编制: 综合分析文档 日期: 2026-04-02 状态: 待确认