跳转至

智能气功资料元数据维度体系 V4.0

文档编号: ZQ-DIM-2026-V4.0 制定日期: 2026-03-31 版本历史: - V1.0 (2026-03-26): 初始 20 维度方案 - V2.0 (2026-04-01): 专家评审后优化方案 - V3.0 (2026-04-02): 架构师精简方案,13+2 维度 - V4.0 (2026-03-31): 综合方案,16 维度(5 类),融合多份专家意见与架构评审


一、文档概述

1.1 制定背景

本维度体系基于以下基础资料和评审意见制定: - 《智能气功科学概论》《混元整体理论》等九册核心教材 - 《智能气功功法学》《气功要旨》等功法专著 - 三位领域专家对 V1.0 20 维度方案的独立评审意见 - V3.0 架构师方案的精简设计思路 - 智能气功科学体系框架(基础理论—技术理论—应用理论三层结构) - 知识库实际数据现状(13,564 篇气功文档,含 2,367 MP3 + 1,225 视频)

1.2 设计原则

原则 说明
不浪费算力 合并冗余维度,减少无效字段,JSONB 存储优化查询效率
不丢失精度 保留核心分类信息,两级结构支持粗/细粒度检索
体系完整 覆盖智能气功科学"基础理论—技术理论—应用理论"的完整框架
可扩展性 E 类扩展维度按需启用,受控词表动态维护
与项目架构一致 使用 asyncpg + JSONB,不引入 ORM

1.3 两份来源方案的共识与分歧

共识(直接采纳)

共识项 处理
course_level + audience 合并为 teaching_level ✅ 采纳
新增 theory_system 维度 ✅ 采纳
功法按三阶段六步细化 ✅ 采纳
content_topic 需要两级结构 ✅ 采纳
新增关联网络(扩展维度) ✅ 采纳
新增应用成效(扩展维度) ✅ 采纳
受控词表 + 级联约束 ✅ 采纳
五类分组(内容/情境/来源/技术/扩展) ✅ 采纳(来自 V3.0)
carrier_media + recording_method 合并为 tech_spec ✅ 采纳(来自 V3.0)
时间线 6 阶段 + 事件节点 ✅ 采纳(来自 V3.0)
地点三级(机构/区域/城市) ✅ 采纳(来自 V3.0)
来源属性三子维度(整理方式/权威等级/出版状态) ✅ 采纳(来自 V3.0)

分歧(逐一裁决)

分歧点 V3.0 方案 V4.0 裁决 理由
presentation + course_type + 活动性质 → 三合一 合并为 presentation_form 拆为 presentation(必标)course_type 降为选标或内嵌子项 三者描述不同层面(固有形态 vs 使用场景 vs 活动性质),合一导致查询歧义
quality + data_status 四合一 合并为 status 保留 data_statusquality 独立选标 完整性(客观事实)、质量(主观评价)、处理状态(工作流)更新频率和信号来源不同
language 并入 media_format 作为子属性 保持独立字段但合并到 media_format 维度内 99% 为简体中文,不单独设维度,但作为 media_format 的子属性保留查询能力
discipline(教材归属) 未设置 设为 A 类必标维度 九册教材是知识体系的核心组织结构,路径自动提取覆盖率高,检索价值大
数据存储模型 SQLAlchemy ORM asyncpg + JSONB 项目使用 asyncpg 原生 SQL,不引入 ORM

1.4 维度总览

┌─────────────────────────────────────────────────────────────────────────────┐
│                智能气功资料维度体系 V4.0                                      │
│                共 17 个维度(6 类)                                            │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ S类:安全维度 (1个)  →  回答"谁能访问"(保密数据控制)                   ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  0. 安全级别 (security_level)                                           ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ A类:内容维度 (5个)  →  回答"讲什么"                                    ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  1. 理论体系归属    2. 内容主题    3. 功法体系                            ║ │
│  ║  4. 内容深度        5. 教材归属                                        ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ B类:情境维度 (4个)  →  回答"什么情况下"                                ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  6. 时间线    7. 场所地点    8. 教学层次    9. 传播形式                   ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ C类:来源维度 (2个)  →  回答"谁产生"                                    ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  10. 主讲/作者    11. 来源属性                                          ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ D类:技术维度 (3个)  →  回答"什么格式"                                  ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  12. 存在形式    13. 技术规格    14. 完整状态                            ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ E类:扩展维度 (2个)  →  选填,高级功能                                  ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  15. 应用成效    16. 关联网络                                          ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

二、维度体系详解

2.0 S类:安全维度(保密数据访问控制)

回答"谁能访问这份资料"。这是保护敏感数据的核心维度,确保只有授权用户才能访问保密文档。


维度 S:安全级别 security_level

控制资料的访问权限,防止保密数据泄露。此维度独立于内容维度,决定用户是否能看到文档。

安全级别 访问权限 说明 典型内容
public 所有用户 公开资料,无需授权 已出版的教材、公开讲座、对外宣传材料
internal 内部用户 需要内部权限 内部讲义、备课资料、培训材料
confidential 保密权限 需要保密授权 未公开的教学内容、内部培训资料
restricted 限制权限 最高级别,需特殊授权 核心保密资料、内部文件、敏感信息

安全级别层次结构

┌─────────────────────────────────────────────────────────────┐
│                    安全级别层次                              │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ restricted (限制)                                    │   │
│  │   - 需要超级管理员授权                                 │   │
│  │   - 核心保密资料                                       │   │
│  │   - 所有 confidential + internal + public 内容        │   │
│  └─────────────────────────────────────────────────────┘   │
│                          ↑                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ confidential (保密)                                  │   │
│  │   - 需要保密权限                                       │   │
│  │   - 未公开的内部资料                                   │   │
│  │   - 所有 internal + public 内容                       │   │
│  └─────────────────────────────────────────────────────┘   │
│                          ↑                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ internal (内部)                                     │   │
│  │   - 需要内部权限                                       │   │
│  │   - 内部培训材料                                       │   │
│  │   - 所有 public 内容                                  │   │
│  └─────────────────────────────────────────────────────┘   │
│                          ↑                                  │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ public (公开)                                        │   │
│  │   - 无需授权                                          │   │
│  │   - 所有公开资料                                       │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

访问控制机制

  1. 默认不返回:常规搜索 API 只返回 public 级别的文档
  2. 显式授权:访问 internal/confidential/restricted 文档需要用户权限
  3. 权限继承:拥有 restricted 权限的用户可访问所有级别文档
  4. 审计日志:所有访问记录在 access_audit_log 表中
  5. 临时授权:支持设置过期时间的临时访问授权

数据库设计

-- 保密文档表(与 documents 表分离)
CREATE TABLE documents_confidential (
    id              SERIAL PRIMARY KEY,
    document_id     INTEGER REFERENCES documents(id) ON DELETE CASCADE,
    security_level  VARCHAR(20) NOT NULL,
    access_reason   TEXT,
    created_at      TIMESTAMP DEFAULT NOW()
);

-- 用户权限表
CREATE TABLE user_permissions (
    id              SERIAL PRIMARY KEY,
    user_id         VARCHAR(100) NOT NULL,
    username        VARCHAR(100) NOT NULL,
    security_level  VARCHAR(20) NOT NULL,
    granted_by      VARCHAR(100),
    granted_at      TIMESTAMP DEFAULT NOW(),
    expires_at      TIMESTAMP,
    is_active       BOOLEAN DEFAULT TRUE
);

-- 访问审计日志表
CREATE TABLE access_audit_log (
    id              BIGSERIAL PRIMARY KEY,
    user_id         VARCHAR(100) NOT NULL,
    document_id     INTEGER,
    security_level  VARCHAR(20),
    action          VARCHAR(20) NOT NULL,
    access_time     TIMESTAMP DEFAULT NOW(),
    result          VARCHAR(20) DEFAULT 'success'
);

API 使用示例

from backend.services.qigong.secure_search import get_secure_search_service

# 获取服务
service = await get_secure_search_service(db_url)

# 检查用户权限
perm = await service.check_user_permission("user_123", "confidential")
if perm["allowed"]:
    # 用户有保密权限,可以搜索保密文档
    results = await service.search_documents(
        user_id="user_123",
        query="形神庄教学"
    )
else:
    # 只能搜索公开文档
    pass

# 授予用户权限
await service.grant_permission(
    admin_user="admin",
    target_user="user_123",
    target_username="张三",
    security_level="internal",
    expires_at=datetime(2026, 12, 31),
    reason="内部培训需要"
)

安全检测规则(自动打标):

# 文件路径/标题关键词检测
SECURITY_KEYWORDS = {
    'restricted': ['内部', '保密', '机密', '秘密', '仅限内部'],
    'confidential': ['内部资料', '内部教学', '未公开', '内部培训'],
    'internal': ['讲义', '教案', '备课', '辅导', '学员须知']
}

自动安全级别检测

在批量打标时,系统会根据文件路径和标题自动检测安全级别:

  1. restricted:路径或标题包含"内部"、"保密"、"机密"等关键词
  2. confidential:路径或标题包含"内部资料"、"内部教学"等关键词
  3. internal:路径或标题包含"讲义"、"教案"、"备课"等关键词
  4. public:默认级别,无敏感关键词

数据分离策略

  • documents 表:存储所有文档的元数据
  • documents_confidential 表:单独存储保密文档的权限信息
  • 常规查询:只返回不在 confidential 表中的文档(即 public 文档)
  • 安全查询:通过用户权限过滤返回可访问的文档

安全最佳实践

  1. 最小权限原则:只授予用户完成任务所需的最小权限
  2. 定期审查:每季度审查用户权限,撤销不再需要的授权
  3. 审计优先:所有保密文档访问必须有审计日志
  4. 临时授权优先:优先使用临时授权而非永久授权
  5. 默认拒绝:未明确授权的访问默认拒绝

2.1 A类:内容维度(5 个)

回答"这份资料讲什么"。这是检索的核心过滤维度。


维度 1:理论体系归属 theory_system

标识资料所属的理论体系。这是智能气功区别于其他气功流派的根本特征,也是跨体系检索的关键过滤条件。

一级选项 二级选项 说明
混元整体理论 混元气理论 万物混元气、人的混元气
意元体理论 意识活动的物质基础
意识论 意识活动的规律与运用
道德论 道德与生命优化的关系
优化生命论 生命从必然到自由的路径
混元医疗观 气功医学(第四医学)的理论基础
传统理论借鉴 阴阳五行 传统中医理论框架
藏象经络 经络理论与脏象学说
儒释道武 传统文化的融合与借鉴
现代科学结合 生理学 现代生理学基础
解剖学 现代解剖学基础
心理学 心理学相关内容
现代科研 科学研究方法与实验

设计说明:混元整体理论是智能气功的核心理论体系,贯穿所有功法和应用。传统理论借鉴和现代科学结合是辅助性理论框架,用于理解智能气功与其他体系的关系。同一个主题(如"气"),在不同理论体系下的解释完全不同,因此需要独立维度标记。


维度 2:内容主题 content_topic

描述资料的具体内容主题。采用两级结构,支持粗检索(命中一级类)和精检索(命中二级项)。

一级选项 二级选项 说明
理论类 基础理论 混元论、整体论等基础概念
深层理论 混元气、意元体等深层论述
方法论 内求法、三传并用等方法论基础
功理 功法的原理与机理
功法类 动功 六步动功相关内容
静功 坐功、站功、卧功
静动功 自发功相关内容
调身 形体调整的方法与要点
调息 呼吸调整的方法与要点
调心 意念运用的方法与要点
组场 组场技术、方法与应用
超常智能 接收信息、发放信息、超常思维
收功 收功方法与注意事项
练功注意 禁忌、偏差预防、安全要点
应用类 医学应用 第四医学、气功诊断与治疗
农业应用 气功农业增产实验
工业应用 气功工业提质应用
教育应用 智能开发、学习提升
体育应用 体育训练领域的应用
文艺应用 文艺创作与表演应用
科研实验 实验设计、数据、结论
综合类 发展历程 智能气功发展各阶段
人物 关键人物传记与事迹
组织建设 机构沿革、管理体系
宣传推广 推广活动、媒体宣传
重大事件 关键节点事件
外事交流 国际交流活动
答疑解惑 问答式内容
综合论述 跨多个主题的综合性论述

设计说明:一级 4 类(理论/功法/应用/综合),二级约 30 项。用户问"组场怎么操作"命中 功法类 > 组场,问"智能气功的理论体系"命中一级 理论类 即可。一个资料可同时属于多个二级主题(如"组场"既是功法又是应用方法),存储时用数组。


维度 3:功法体系 gongfa_system

按智能气功三阶段六步功法体系分类。非智能气功功法不纳入此维度(在 theory_system 中标记为"传统理论借鉴")。

阶段/类别 功法名称 说明
外混元(初级) 捧气贯顶法 第一套功法,内气外放、外气内收
三心并站庄 外→内过渡功法
内混元(中级) 形神庄(经络混元) 经络层次,气达皮肉筋脉骨
五元庄(脏真混元) 脏腑层次,气入五脏六腑
中混元(高级) 中脉混元功 打通中脉
中线混元功 凝炼中线
混化归元功 天人合一、返本归元
静功类 坐功 盘坐式静功
站功 站式静功(非三心并)
卧功 卧式静功
静动功类 自发功 需强辅导防偏差
辅助功法 拉气 基础感知练习
练气八法 辅助练习方法集
组场 组场技术(兼属功法和应用)
收功 收功方法
通用 不特定于某一功法的内容

维度 4:内容深度 content_depth

描述资料的理论深度和适用对象。与 gongfa_system 存在联动关系。

深度级别 说明 典型内容
入门 面向完全初学者 气功是什么、基本概念介绍、健身气功
初级 需要基本气功知识 外混元阶段功法讲解、基础理论概览
中级 需要系统学习 内混元阶段功法、意元体深入、精义级内容
高级 深层理论与高级技术 中混元阶段功法、超常智能技术、深层理论
专家 专业研究与教学 学术论文、科研数据、跨学科研究
研究级 科研性质专业内容 原始实验报告、方法论探讨、理论前沿

与功法体系的联动规则(默认值,可手动覆盖):

功法阶段 建议默认深度
外混元 入门-初级
内混元 中级
中混元 高级
静功/静动功/辅助 按内容具体判断
通用 按内容具体判断

维度 5:教材归属 discipline

对应智能气功科学九册教材体系 + 非教材资料。这是知识库中高覆盖率、高检索价值的维度——大量文档的文件路径直接编码了教材归属信息。

子项 对应教材
概论 《智能气功科学概论》
混元整体理论 《智能气功科学基础——混元整体理论》
精义 《智能气功科学精义》
功法学 《智能气功科学功法学》
超常智能 《智能气功科学技术——超常智能》
传统气功知识 《传统气功知识综述》
气功与文化 《气功与人类文化》
气功史 《中国气功发展简史》
现代科学研究 《气功的现代科学研究》
非教材 不属于九册教材体系的资料

设计说明:V3.0 方案遗漏了此维度。九册教材是庞明学术框架的核心组织结构,用户会按教材查询(如"精义里怎么讲意识的"),文件路径自动提取覆盖率约 40%,必须作为独立维度存在。


2.2 B类:情境维度(4 个)

回答"这份资料在什么情况下产生/使用"。用于排序和上下文过滤。


维度 6:时间线 timeline

按智能气功发展历程划分时期,标注关键事件节点。

时期 年份 关键事件节点
早期探索 1980-1986 庞明开始创编智能气功;首期康复班
系统授课 1987-1988 系统化教学开始
石家庄时期 1989-1991 华夏培训中心成立
秦皇岛时期 1992-2000 1992 年技术鉴定;1998 年国家审定首批健身气功功法
深化研究 2000-2009 基础科研(00-04);应用拓展(05-09)
传承发展 2010-至今 理论整理与传承工作

设计说明:6 段粗粒度 + 关键事件标注。不加更细的等距时间分段,因为气功发展不是匀速的——1998 年评审和 2000 年中心关闭之间的信息密度远高于其他时段。具体事件的年份作为附属信息存储,不做独立维度。


维度 7:场所地点 location

记录资料产生的地点信息。采用机构/区域/城市三级结构。

层级 选项
机构 北京海淀大学、石家庄进修学院、华夏培训中心(秦皇岛)、中日友好医院、密云京华肿瘤医院
区域 华北、华东、华中、华南、西南、西北、国际
城市 北京、石家庄、秦皇岛、济南、合肥、苏州、芜湖、阜阳、上海、武汉、广州

设计说明:三级结构方便不同粒度的查询——宏观统计按区域,精确定位按机构。主要供资料归档管理使用,对检索贡献较低,标注优先级为 P1。


维度 8:教学层次 teaching_level

合并原方案的"课程级别"与"对应受众"。两者子项大量重叠(康复班、师资班等同时出现在两个维度中),合并后减少打标负担,检索收益几乎无损。

教学层次 对应受众 说明
康复班 群众/患者 以康复保健为主
教练员班 教练员 培养教学骨干
师资班 师资 培养高级师资
大专课程 大学生 系统学历教育
学术交流会 专家/科研人员 学术研讨交流
专题班 各层次 专题研讨培训
公开讲座 社会公众 普及性讲座

维度 9:传播形式 presentation

描述资料的固有内容形态。与"教学组织形式"不同——一本书的形态是"书籍",不因使用场景而改变。

子项 说明
书籍/教材 正式出版的书籍或教材
论文/文章 学术论文、期刊文章
讲课 课堂讲授(录音/录像/文字记录)
谈话/座谈 非正式谈话、座谈交流
笔记 学习笔记、听课笔记
问答 问答式内容(有明确提问与回答)
致辞/发言 会议致辞、庆典发言
信函 书信、通信
采访 媒体采访、访谈记录

course_type 的关系presentation 描述内容固有形态(一段讲课录音的形态就是"讲课"),教学组织形式(系统授课/公开讲座/短期培训等)作为 presentation 的附属子属性存储,不设独立维度。理由:同一内容可在不同教学场景中使用,教学组织形式不是内容的固有属性,且对检索贡献有限。


2.3 C类:来源维度(2 个)

回答"这份资料是谁产生的"。用于权威性判断和排序。


维度 10:主讲/作者 speaker

子项 说明
庞明主讲 庞明(庞鹤鸣)亲自讲授,核心权威内容
庞明+助教 庞明讲授、助教辅助
助教辅导 助教独立授课或辅导
学员发言 学员提问、讨论、心得分享
特邀嘉宾 外部专家、嘉宾发言
录音播放 历史录音播放
其他 无法确定主讲者的内容

维度 11:来源属性 source_attribute

描述资料的来源、整理方式、权威等级和出版状态。设三个子维度,各自由不同信号来源获取,更新频率不同。

子维度 选项 说明
整理方式 原始录音 直接录音记录
转录整理 录音/录像转文字
汇编整理 多资料汇编
正式出版 出版社正式出版
组织制作 气功组织机构制作
分享获取 通过分享渠道获取
数字化 纸质资料数字化
权威等级 核心教材 九册教材等核心内容
辅助资料 辅助学习材料
参考材料 参考性资料
出版状态 正式出版 正式出版物
内部刊物 内部交流刊物
网络公开 网络公开发布
手稿 手稿性质

设计说明:三个子维度独立存储,因为信号来源不同(整理方式从文件路径推断,权威等级从内容判断,出版状态从元数据获取),更新频率也不同。


2.4 D类:技术维度(3 个)

回答"这份资料是什么格式/状态"。主要用于数据治理,部分可自动提取。


维度 12:存在形式 media_format

描述资料的媒体格式,包含语言子属性。

格式类型 说明 自动提取方式
文字 纯文本、TXT、Markdown 扩展名 .txt .md
文档 Word、PDF 等文档 扩展名 .doc .docx .pdf
图片 图片文件 扩展名 .jpg .png .bmp .tiff
音频 MP3、WAV 等 扩展名 .mp3 .wav .m4a .flac .ogg
视频 MP4、MPG 等 扩展名 .mp4 .mpg .avi .mov .wmv
扫描版 需 OCR 的扫描件 需人工或 OCR 检测判断

语言子属性

选项 说明
简体中文 当前数据占 ~99%
繁体中文 少量传统版本
英文 翻译版本
中英对照 双语版本

设计说明:从文件扩展名自动提取格式,覆盖率约 95%。语言作为 media_format 的子属性而非独立维度,因为当前 99% 为简体中文,独立维度的检索价值极低,但作为子属性保留了查询能力。


维度 13:技术规格 tech_spec

合并原方案的"载体介质"与"收录方式"。两者高度相关(磁带载体 = 磁带转录),合并后减少认知负担。

子维度 选项
物理载体 磁带、录像带、CD、DVD、VCD、纸质、缩微胶片
数字载体 U 盘/移动硬盘、云端存储
收录方式 现场录音、现场录像、磁带转录、CD 转录、DVD 转录、广播录制、直播、网络下载、数字化

设计说明:对已数字化资料,此维度主要记录原始载体信息,供归档管理使用。对检索贡献低,但保留原始载体信息对资料溯源有价值。


维度 14:完整状态 data_status

描述资料的完整性、处理状态和发布状态。

子维度 选项 说明
完整性 完整 完整无缺
残缺 内容不完整
片段 仅为片段节选
处理状态 原始 原始素材
整理中 正在整理
待校对 已整理未校对
已校对 已完成校对
已编辑 已完成编辑处理
发布状态 草稿 草稿阶段
已发布 已正式发布
已归档 已归档保存

质量子属性(选填)

选项 说明
原版 原始版本
高质量
中等质量
低质量(杂音、模糊等)

设计说明:V3.0 将质量、完整性、处理状态、发布状态四合一为 status。V4.0 拆分处理:完整性+处理状态+发布状态合并为 data_status,质量作为附属子属性保留但降为选填。理由:前三者是工作流状态(频繁变化),质量是主观评价(不常变化),合并后任何一个子属性变化都要更新整条记录,增加了不必要的数据变动。拆分后 data_status 由系统自动维护,quality 由人工按需填写。


2.5 E类:扩展维度(2 个,选填)

按需填写,有则标注,无则跳过。


维度 15:应用成效 application_effect

记录资料中提到的应用效果数据。

领域 数据类型
医学成效 康复率、病例统计、治愈数据
农业成效 增产比例、实验对比数据
工业成效 质量提升、效率优化数据
教育成效 智能开发、学习提升数据

存储为 JSONB,按需结构化:

{
  "domain": "医学成效",
  "metrics": [
    {"name": "康复率", "value": "87.3%", "sample_size": 1200}
  ],
  "source": "《气功的现代科学研究》第 3 章"
}

构建资料间的关联关系,为知识图谱应用预留。

关系类型 说明
引用关系 A 资料引用 B 资料的内容
补充关系 A 资料是 B 资料的补充说明
前后关系 前导课程 → 后续课程
版本关系 原版 → 修订版 → 新版
人物关联 与某人物的关联

当前阶段存储为 JSONB。第三期(知识图谱阶段)迁移为独立关系表。


三、维度间关系

3.1 正交关系

大部分维度互相独立,可自由组合: - "混元气理论"(content_topic)可以出现在任何功法阶段(gongfa_system) - "入门"深度(content_depth)的内容可以是任何理论体系(theory_system) - "庞明主讲"(speaker)可以面向任何教学层次(teaching_level)

3.2 联动关系

以下维度对建议联动打标(先填主维度,联动维度自动填充默认值,可手动覆盖):

维度 A 维度 B 联动规则
gongfa_system content_depth 外混元→入门/初级,内混元→中级,中混元→高级
discipline theory_system 九册教材默认"混元整体理论"
media_format presentation 音频→讲课/谈话,文档→书籍/论文
speaker source_attribute.整理方式 庞明主讲→原始录音/转录整理

3.3 矩阵视图(功法 × 理论层级 × 深度)

                理论层级
                基础理论    技术理论    应用理论
            ┌──────────┬──────────┬──────────┐
  外混元     │  ●       │          │          │  深度: 入门-初级
            ├──────────┼──────────┼──────────┤
  内混元     │  ●       │  ●       │  ●       │  深度: 中级
            ├──────────┼──────────┼──────────┤
功法阶段     │          │          │          │
  中混元     │          │  ●       │  ●       │  深度: 高级
            ├──────────┼──────────┼──────────┤
  通用       │  ●       │  ●       │  ●       │  深度: 按内容
            └──────────┴──────────┴──────────┘

● = 常见关联(非强制)

用途:检索时的联合过滤。用户说"我刚学捧气贯顶",系统推断 gongfa_system=外混元 + content_depth≤初级,优先推入门级内容。

3.4 智能气功科学体系映射

体系框架层级 对应维度
哲学与方法论基础 theory_system(混元整体理论)
基础理论 theory_system + content_topic(理论类)
技术理论 gongfa_system + content_topic(功法类)+ teaching_level
应用理论 content_topic(应用类)+ application_effect
教材体系 discipline + teaching_level

四、数据模型设计

4.1 存储方案

在现有 documents 表增加 JSONB 字段,与项目 asyncpg 原生 SQL 架构一致。

-- 在 documents 表增加维度字段
ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dims JSONB DEFAULT '{}';

-- GIN 索引支持高效 JSONB 包含查询
CREATE INDEX IF NOT EXISTS idx_documents_qigong_dims
  ON documents USING GIN (qigong_dims)
  WHERE category = '气功';

4.2 数据示例

{
  "theory_system": "混元整体理论",
  "theory_subsystem": "调息",
  "content_topic": ["功法类", "调息"],
  "gongfa_stage": "通用",
  "gongfa_method": null,
  "content_depth": "中级",
  "discipline": "精义",
  "timeline_period": "秦皇岛时期",
  "timeline_event": null,
  "location_institution": "华夏培训中心",
  "location_region": "华北",
  "location_city": "秦皇岛",
  "teaching_level": "大专课程",
  "presentation": "讲课",
  "course_type": "系统授课",
  "speaker": "庞明主讲",
  "source_format": "现场录像",
  "source_authority": "核心教材",
  "source_publication": null,
  "media_format": "视频",
  "media_language": "简体中文",
  "tech_carrier": null,
  "tech_recording": "现场录像",
  "completeness": "完整",
  "processing_status": "待校对",
  "publishing_status": null,
  "quality": null
}

4.3 查询示例

-- 查找内混元阶段、形神庄相关、庞明主讲的资料
SELECT id, title,
       qigong_dims->>'gongfa_method' AS gongfa,
       qigong_dims->>'content_depth' AS depth
FROM documents
WHERE category = '气功'
  AND qigong_dims @> '{"gongfa_method": "形神庄"}'::jsonb
  AND qigong_dims @> '{"speaker": "庞明主讲"}'::jsonb;

-- 查找入门级、混元整体观的资料
SELECT id, title
FROM documents
WHERE category = '气功'
  AND qigong_dims @> '{"content_depth": "入门", "theory_system": "混元整体理论"}'::jsonb;

-- 查找精义教材中关于意识的内容
SELECT id, title
FROM documents
WHERE category = '气功'
  AND qigong_dims @> '{"discipline": "精义"}'::jsonb
  AND qigong_dims->'content_topic' ? '意识论';

-- 按教学层次统计资料分布
SELECT
  qigong_dims->>'teaching_level' AS level,
  COUNT(*) AS cnt
FROM documents
WHERE category = '气功'
  AND qigong_dims->>'teaching_level' IS NOT NULL
GROUP BY level ORDER BY cnt DESC;

4.4 受控词表(支持演进)

建议新建受控词表管理维度定义,支持动态更新、版本控制和前端表单自动生成:

-- 维度词表(支持演进)
CREATE TABLE IF NOT EXISTS qigong_dimension_vocab (
  dimension_code  VARCHAR(50) PRIMARY KEY,
  dimension_name  VARCHAR(100) NOT NULL,
  category        VARCHAR(10) NOT NULL,  -- A/B/C/D/E
  priority        VARCHAR(10) NOT NULL DEFAULT 'P1',  -- P0/P1/P2/P3/P4
  parent_code     VARCHAR(50),           -- 父维度(用于二级词表)
  sub_items       JSONB NOT NULL DEFAULT '[]',
  auto_extract    BOOLEAN DEFAULT FALSE,
  description     TEXT,
  updated_at      TIMESTAMP DEFAULT NOW(),

  -- 演进支持字段
  status          VARCHAR(20) DEFAULT 'active',  -- active/deprecated/experimental
  schema_version  VARCHAR(20) DEFAULT 'v4.0',     -- 维度体系版本
  created_at      TIMESTAMP DEFAULT NOW(),
  retired_at      TIMESTAMP,                      -- 废弃时间
  replacement_code VARCHAR(50),                   -- 替代维度代码(如废弃的话)

  -- 变更历史(JSON数组)
  change_log      JSONB DEFAULT '[]'
);

-- 维度子项表(支持细粒度演进)
CREATE TABLE IF NOT EXISTS qigong_dimension_items (
  item_code       VARCHAR(100) PRIMARY KEY,
  dimension_code  VARCHAR(50) NOT NULL REFERENCES qigong_dimension_vocab(dimension_code),
  item_name       VARCHAR(200) NOT NULL,
  parent_item_code VARCHAR(100),                 -- 父子项(用于多级结构)
  display_order   INTEGER DEFAULT 0,

  -- 演进支持
  status          VARCHAR(20) DEFAULT 'active',  -- active/deprecated/experimental
  since_version   VARCHAR(20) DEFAULT 'v4.0',    -- 引入版本
  deprecated_in   VARCHAR(20),                   -- 废弃版本
  replacement_code VARCHAR(100),                 -- 替代子项代码

  created_at      TIMESTAMP DEFAULT NOW(),
  updated_at      TIMESTAMP DEFAULT NOW()
);

-- 索引
CREATE INDEX IF NOT EXISTS idx_dimension_vocab_category
  ON qigong_dimension_vocab(category, priority);
CREATE INDEX IF NOT EXISTS idx_dimension_items_dimension
  ON qigong_dimension_items(dimension_code, display_order);

4.5 演进策略

分级演进控制

┌─────────────────────────────────────────────────────────────────────────────┐
│                        维度演进分级控制                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ Level 1: 自由扩展(无需审批,立即生效)                                  ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  • E类扩展维度新增子项                                                  ║ │
│  ║  • content_topic 新增实验性二级主题(标记 experimental)                 ║ │
│  ║  • tech_spec 新增载体或收录方式                                          ║ │
│  ║  • change_log 记录变更                                                   ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ Level 2: 审核后修改(需专家评审)                                        ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  • A-C类核心维度新增子项                                                 ║ │
│  ║  • 维度优先级调整(P0-P4)                                               ║ │
│  ║  • 子项状态变更(active ↔ deprecated)                                  ║ │
│  ║  • experimental 子项升级为 active                                         ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
│  ╔═════════════════════════════════════════════════════════════════════════╗ │
│  ║ Level 3: 重大变更(需技术评审+数据迁移,版本升级)                        ║ │
│  ╠═════════════════════════════════════════════════════════════════════════╣ │
│  ║  • 新增/废弃核心维度                                                      ║ │
│  ║  • 维度合并/拆分                                                          ║ │
│  ║  • 数据模型结构变更                                                       ║ │
│  ║  • 版本升级(如 V4.0 → V4.1)                                            ║ │
│  ╚═════════════════════════════════════════════════════════════════════════╝ │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

版本控制示例

// 维度版本记录
{
  "dimension_code": "content_topic",
  "schema_version": "v4.0",
  "status": "active",
  "change_log": [
    {
      "version": "v4.0",
      "date": "2026-04-02",
      "change": "从V1.0重组,4类×30项两级结构",
      "type": "major"
    },
    {
      "version": "v4.1",
      "date": "2026-06-15",
      "change": "新增二级子项'跨文化研究'(experimental)",
      "type": "minor"
    }
  ]
}

废弃处理流程

┌─────────────────────────────────────────────────────────────────────────────┐
│ 维度/子项废弃流程                                                            │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  1. 提议废弃 → 记录废弃理由和替代方案                                         │
│  2. 状态变更 → status = 'deprecated', 记录 deprecated_in 版本               │
│  3. 数据保留 → 历史数据保留,查询时显示警告                                  │
│  4. 迁移引导 → 如有替代维度,提供数据迁移脚本                                │
│  5. 定期清理 → 废弃满2年后,考虑归档或删除                                   │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

五、实施路线

5.1 三期实施

第一期:规则引擎自动打标(立即可做)

利用文件路径中编码的信息,通过正则匹配提取基础维度。

路径模式示例

/大专班/精义/34/285明了调息的目的和作用C.mpg
  → teaching_level = "大专课程"
  → discipline = "精义"
  → content_topic = ["功法类", "调息"]
  → media_format = "视频"
  → speaker = "庞明主讲"(默认值)

/音频/教练员班/混元气理论2.1.mp3
  → teaching_level = "教练员班"
  → content_topic = ["理论类", "深层理论"]
  → theory_subsystem = "混元气理论"
  → media_format = "音频"

/健身气功/健身气功八段锦/
  → theory_system = "传统理论借鉴"
  → gongfa_stage = "通用"
  → content_topic = ["功法类", "动功"]

预计覆盖率

维度 提取来源 预计覆盖率
media_format 文件扩展名 ~95%
teaching_level 路径中班次关键词 ~60%
discipline 路径中教材关键词 ~40%
content_topic 路径+标题关键词 ~50%
speaker 路径中"庞鹤鸣"/"庞明" ~40%
theory_system 路径+标题关键词 ~30%
gongfa_system 标题中功法名 ~30%
timeline 路径中年份(如有) ~20%

第二期:ASR 转写 + NLP 增强打标

  1. 使用 FunASR(Paraformer-zh)将 2,367 个 MP3 转写为文本
  2. 使用 SenseVoice 将 1,225 个视频转写为文本(含情感和事件标签)
  3. 对转写文本用关键词+规则匹配补充维度标签
  4. 对已有文本内容(PDF、Word、TXT)做 NLP 分析,提取 content_topictheory_systemcontent_depth

第三期:人工审核 + 知识图谱

  1. 对自动打标结果做抽样审核(优先审核高价值条目)
  2. 建立维度间的关联关系(related_resources 维度)
  3. 迁移为独立关系表,支持知识图谱应用
  4. 支持推理式检索(问"内混元阶段练什么"能关联到形神庄+五元庄)

5.2 维度填写优先级

优先级 维度 说明
P0(必填) theory_system, content_topic, gongfa_system, discipline 核心分类,检索主过滤条件
P1(推荐) content_depth, teaching_level, speaker, timeline, media_format, presentation 重要检索和排序维度
P2(可选) location, source_attribute, tech_spec, data_status 辅助检索和数据治理
P3(系统) media_format(格式), data_status(处理状态) 系统自动处理
P4(按需) application_effect, related_resources 高级功能

5.3 分类一致性保障

  1. 词表约束:使用受控词表,禁止自由输入
  2. 级联约束:二级选项依赖一级选项选择(如选"混元整体理论"后,二级只能选对应子项)
  3. 联动约束:主维度确定后,联动维度自动填充默认值
  4. 审核流程:新增资料需经审核确认分类
  5. 定期校验:定期检查分类一致性

5.4 未分类资料处理

新资料入库 → 自动标记"待分类"
路径解析 + NLP 预分类 → 推荐可能维度
人工确认/修正 → 确定最终分类
定期复审 → 处理长期"待分类"资料

六、标注示例

示例 1:庞明主讲《智能气功科学概论》

{
  "theory_system": "混元整体理论",
  "theory_subsystem": "混元气理论",
  "content_topic": ["理论类", "基础理论"],
  "gongfa_stage": "通用",
  "gongfa_method": null,
  "content_depth": "专家",
  "discipline": "概论",
  "timeline_period": "秦皇岛时期",
  "location_institution": "华夏培训中心",
  "location_region": "华北",
  "location_city": "秦皇岛",
  "teaching_level": "大专课程",
  "presentation": "书籍/教材",
  "speaker": "庞明主讲",
  "source_format": "正式出版",
  "source_authority": "核心教材",
  "source_publication": "正式出版",
  "media_format": "文档",
  "media_language": "简体中文",
  "completeness": "完整",
  "processing_status": "已发布",
  "quality": "高"
}

示例 2:形神庄教学录像

{
  "theory_system": "混元整体理论",
  "theory_subsystem": "优化生命论",
  "content_topic": ["功法类", "动功"],
  "gongfa_stage": "内混元",
  "gongfa_method": "形神庄",
  "content_depth": "中级",
  "discipline": "功法学",
  "timeline_period": "秦皇岛时期",
  "location_institution": "华夏培训中心",
  "location_region": "华北",
  "location_city": "秦皇岛",
  "teaching_level": "康复班",
  "presentation": "讲课",
  "speaker": "庞明主讲",
  "source_format": "现场录像",
  "source_authority": "核心教材",
  "media_format": "视频",
  "media_language": "简体中文",
  "tech_carrier": "录像带",
  "tech_recording": "现场录像",
  "completeness": "完整",
  "processing_status": "待校对"
}

示例 3:混元气理论教练员班录音

{
  "theory_system": "混元整体理论",
  "theory_subsystem": "混元气理论",
  "content_topic": ["理论类", "深层理论"],
  "gongfa_stage": "通用",
  "gongfa_method": null,
  "content_depth": "高级",
  "discipline": "混元整体理论",
  "timeline_period": "秦皇岛时期",
  "teaching_level": "教练员班",
  "presentation": "讲课",
  "speaker": "庞明主讲",
  "source_format": "原始录音",
  "source_authority": "核心教材",
  "media_format": "音频",
  "media_language": "简体中文",
  "tech_carrier": "磁带",
  "tech_recording": "现场录音",
  "completeness": "完整",
  "processing_status": "待校对"
}

七、版本对比

7.1 各版本维度数量

版本 总维度 安全 内容 情境 来源 技术 扩展
V1.0 20 - 5 5 2 7 0
V3.0 15 - 4 4 2 3 2
V4.0 17 1 5 4 2 3 2

7.2 V3.0 → V4.0 变化

变化类型 内容 理由
采纳 五类分组框架 比线性排列更清晰
采纳 teaching_level 合并 两方案共识
采纳 tech_spec 合并 载体+收录方式高度相关
采纳 来源属性三子维度 更完整的来源描述
采纳 时间线 6 阶段+事件 比原 5 段更合理
采纳 地点三级结构 支持不同粒度查询
采纳 受控词表+级联约束 确保分类一致性
采纳 application_effect + related_resources 有远见的扩展设计
新增 discipline(教材归属) V3.0 遗漏,检索价值高
不采纳 presentation_form 三合一 三者层面不同,合一导致歧义
不采纳 status 四合一 信号来源和更新频率不同
不采纳 SQLAlchemy ORM 与项目 asyncpg 架构冲突
调整 language 并入 media_format 采纳为子属性
调整 data_statusquality 分离 保持工作流状态和主观评价独立

7.3 与原 V1.0 方案完整对照

V1.0 # 维度 V4.0 处理
1 时间线 → 维度 6(B 类),6 阶段+事件
2 存在形式 → 维度 12(D 类),含语言子属性
3 表现形式 → 维度 9(B 类),独立保留
4 对应受众 → 合并进 teaching_level(维度 8)
5 涉及内容 → 维度 2(A 类),两级结构
6 场所地点 → 维度 7(B 类),三级结构
7 课程级别 → 合并进 teaching_level(维度 8)
8 安全级别 维度 S(S 类),保密数据访问控制,新增分表 + 权限管理
9 来源属性 → 维度 11(C 类),三子维度
10 资料状态 → 维度 14(D 类),含质量子属性
11 功法类型 → 维度 3(A 类),三阶段六步
12 语言类型 → media_format 子属性(维度 12)
13 质量等级 → data_status 子属性(维度 14,选填)
14 课程性质 → presentation 附属子属性(维度 9)
15 授课人员 → 维度 10(C 类)
16 收录方式 → 合并进 tech_spec(维度 13)
17 载体介质 → 合并进 tech_spec(维度 13)
18 流通范围 → source_attribute 子属性(维度 11)
19 内容深度 → 维度 4(A 类),6 级
20 学术属性 不设独立维度(可从 content_topic+presentation 组合推断)
新增 理论体系归属 → 维度 1(A 类)
新增 教材归属 → 维度 5(A 类)
新增 应用成效 → 维度 15(E 类,选填)
新增 关联网络 → 维度 16(E 类,选填)

八、附录

附录 A:维度速查表

# 维度 代码 类别 优先级 子项数 主要打标方式
S 安全级别 security_level S P0 4 关键词检测+人工审核
1 理论体系归属 theory_system A P0 3+14 关键词+规则
2 内容主题 content_topic A P0 4+~30 关键词+NLP
3 功法体系 gongfa_system A P0 17 关键词匹配
4 内容深度 content_depth A P0 6 联动推断
5 教材归属 discipline A P0 10 路径提取
6 时间线 timeline B P1 6 路径+推断
7 场所地点 location B P1 三级 人工
8 教学层次 teaching_level B P1 7 路径提取
9 传播形式 presentation B P1 9 规则+人工
10 主讲/作者 speaker C P1 7 路径+关键词
11 来源属性 source_attribute C P2 3 子维度 规则推断
12 存在形式 media_format D P3 6+4 自动提取
13 技术规格 tech_spec D P2 3 子维度 人工
14 完整状态 data_status D P3 3 子维度 系统自动
15 应用成效 application_effect E P4 4 领域 人工
16 关联网络 related_resources E P4 5 类型 人工

附录 B:术语表

术语 定义
安全级别 控制文档访问权限的维度,分为 public/internal/confidential/restricted 四级
访问控制 确保只有授权用户才能访问相应安全级别的文档
审计日志 记录所有文档访问行为的日志,用于安全审计和合规检查
临时授权 具有过期时间和访问次数限制的临时访问权限
最小权限原则 只授予用户完成任务所需的最小权限
默认拒绝 未明确授权的访问默认被拒绝
混元整体观 宇宙、自然、人是一整体,由混元气联系
混元气 万物混元、聚则成形、散则成气的物质
意元体 意识活动的物质基础,脑元体的升华
内求法 利用练功所得超常智能研究生命规律的方法
外混元 练功初级阶段,内气外放、外气内收
内混元 练功中级阶段,气达皮肉筋脉骨、五脏六腑
中混元 练功高级阶段,打通中脉、天人合一
第四医学 气功医学,区别于第一医学(治疗)、第二医学(预防)、第三医学(康复)
组场 运用意识组织气场,实现群体信息同步的技术
三传并用 心传、形传、口传三种传授方式并用
JSONB PostgreSQL 的 JSON 二进制存储格式,支持 GIN 索引和包含查询
受控词表 预定义的合法标签集合,防止同义词造成分类不一致
级联约束 二级选项依赖一级选项的选择,形成父子关系
联动打标 一个维度确定后,相关维度自动填充默认值

附录 C:数据现状统计

指标 数值
气功类文档总量 13,564 篇
庞鹤鸣相关 4,634 篇(34%)
智能气功主题 1,530 篇
混元气理论 541 篇
超常智能 141 篇
捧气贯顶 123 篇
MP3 音频(待转写) 2,367 篇(17%)
视频录像(待转写) 1,225 篇(9%)
PDF 3,278 篇
Word 文档 896 篇
当前分类方式 7 个扁平标签,无层次结构

文档编制: 智能气功知识系统项目组 审核专家: [待填写] 批准日期: [待填写] 生效日期: [待填写]