跳转至

智能气功资料多维标注体系设计方案

版本: v1.0 · 日期: 2026-03-31 · 状态: 征求意见
背景: 基于《有关智能气功资料的20个维度和子项(征求意见稿)》及三位专家评审意见综合整理


一、设计目标

本方案服务于智能知识系统(RAG 问答系统)的资料标注,核心目标:

  1. 提升检索精度 — 用户提问时,通过维度过滤缩小文档范围,返回正确主题、正确深度的内容
  2. 控制标注成本 — 区分必标/应标/选标,优先自动化打标,避免人工负担过重
  3. 保持颗粒精度 — 关键维度(主题、功法、理论体系)细分到位,次要维度适当粗化

评判每个维度的标准只有两条: - 这个维度能不能影响检索结果? - 打标的成本(人工/自动)能否接受?


二、数据现状

指标 数值
气功类文档总量 13,564 篇
庞鹤鸣相关 4,634 篇(34%)
智能气功主题 1,530 篇
混元气理论 541 篇
超常智能 141 篇
捧气贯顶 123 篇
MP3 音频(待转写) 2,367 篇(17%)
视频录像(待转写) 1,225 篇(9%)
PDF 3,278 篇
Word 文档 896 篇
当前分类方式 7 个扁平标签,无层次结构

当前问题:分类既没有反映智能气功科学自身的体系层次,也无法区分同一主题下不同深度的内容。


三、专家共识与分歧

3.1 专家共识

共识项 具体意见
20 维度框架基本合理 不需要大幅删减
content_topic 太宽 需要拆分为理论类与应用类
混元整体理论地位特殊 应独立维度化或升为一级子项
功法需按三阶段六步细化 外混元→内混元→中混元
presentationcourse_type 有交叉 需明确边界或合并
缺少人物维度 庞明、助教、学员等需独立标记
优先级排序 时间线 > 涉及内容 > 功法类型 > 来源属性

3.2 分歧与处理

分歧 1:要不要新增"理论体系归属"维度?

  • 专家 A:新增"理论体系归属" + "实践效果"
  • 专家 B:新增"关联人物"
  • 专家 C:新增"理论体系归属"

处理:新增 theory_system(理论体系归属)。"实践效果"更适合作为 content_topic 的子项而非独立维度,因为不是每份资料都有可量化的实践效果数据。related_persons 同意新增,但降为选标维度。

分歧 2:presentationcourse_type 合并还是保留?

  • 专家 A/C:合并
  • 专家 B:保留,加说明区分

处理:保留两个维度,重新定义边界——presentation 描述内容的固有形态(一本书就是书),course_type 描述使用场景(同一段讲课可在不同场合播放)。course_type 降为选标维度。

分歧 3:时间颗粒度多细?

  • 专家 A:按年度甚至季度
  • 专家 B:五年分
  • 专家 C:补充关键节点年份

处理:5 段粗粒度 + 关键事件节点。智能气功发展不是匀速的,按年度等距切分不合理。

分歧 4:course_levelaudience 是否合并?

处理:合并。两者子项大量重叠(康复班、师资班等同时出现在两个维度中),文件路径中班次信息同时编码了受众和课程级别。合并后减少打标负担,检索收益几乎无损。


四、22 维度方案

总览

级别 维度数 维度
必标 7 content_topic, gongfa_type, theory_system, depth_level, discipline, media_format, speaker
应标 5 audience, timeline, presentation, data_source, data_status
选标 8 location, course_type, language, quality, related_persons, security_level, distribution, recording_method
不实施的维度 2 carrier_media, academic_type

说明:不实施的维度指当前阶段暂不建字段。维度定义保留在受控词表中,将来需要时可随时激活。


五、必标维度(详细定义)

维度 1:主题内容 content_topic

两级结构:一级类 5 项 + 二级细项约 30 项。支持粗检索(命中一级类)和精检索(命中二级项)。

一级:理论

二级子项 说明 对应教材/出处
混元整体理论 混元论 + 整体论,宇宙观 《混元整体理论》
混元气理论 混元气的体、用、化 《混元整体理论》第三章
意元体理论 意元体的体性、功能、参照系 《混元整体理论》第四章
意识论 意识活动的规律、运用意识的方法 《精义》
道德论 道德与生命活动的关系、涵养道德 《精义》+《概论》
优化生命论 生命从必然到自由的路径 《概论》
混元医疗观 混元整体观指导下的疾病观、治疗观 《概论》
方法论/认识论 内求法、外求法、方法论基础 《概论》
内求法 以超常智能为工具的研究方法 《概论》+《超常智能》

一级:功法

二级子项 说明
功理总论 功法的总体原理、设计思路
调身 形体调整的原理与方法
调息 呼吸调整的原理与方法
调心/运用意识 意念运用的原理与方法
收功 收功的方法与注意事项
组场 组场理论、方法与应用
超常智能技术 接收信息、发放信息、超常思维
三传并用 心传、形传、口传的理论与实践
练功注意事项 禁忌、偏差预防、安全要点

一级:应用

二级子项 说明
气功医学/康复 诊断、治疗、康复案例
农业应用 气功增产实验
工业应用 气功提质实验
教育应用 智能开发、教育实践
科研实验 实验设计、数据、结论
体育/文艺 体育训练、文艺表演中的应用

一级:历史/组织

二级子项 说明
发展历程 智能气功发展的各阶段
人物 关键人物传记、事迹
组织建设 机构沿革、管理体系
宣传推广 推广活动、媒体宣传
重大事件 关键节点事件(如国家评审、技术鉴定)
外事交流 国际交流活动

一级:综合

二级子项 说明
答疑解惑 问答式内容
跨领域综合论述 跨多个主题的综合性论述
序言/致辞 书籍序言、会议致辞

维度 2:功法类型 gongfa_type

按智能气功三阶段六步体系组织。非智能气功功法不纳入此维度(在 theory_system 中区分)。

阶段/类别 功法 说明
外混元 捧气贯顶法 第一阶段主功法,内气外放、外气内收
三心并站桩 外→内过渡功法
内混元 形神庄(经络混元) 经络层次,气达皮肉筋脉骨
五元庄(脏真混元) 脏腑层次,气入五脏六腑
中混元 中脉混元功 打通中脉
中线混元功 凝炼中线
浑化归元功 天人合一、返本归元
辅助 练气八法 辅助练习方法
拉气 基础感知练习
静功 坐功 盘坐式静功
站桩(非三心并) 站式静功
卧功 卧式静功
静动功 自发功 需强辅导防偏差
通用 不特定于某一功法的内容

维度 3:理论体系归属 theory_system(新增)

子项 说明
混元整体观 智能气功核心理论体系,以混元气和整体观为基础
传统气功理论 儒释道医武各家的气功论述(如周天功理论)
中医理论 经络、气血、脏腑、阴阳五行等中医框架下的论述
现代科学 用生理学、物理学、心理学等现代科学语言解读
健身气功 国家体育总局推广的简化版框架(如健身气功八段锦)
融合论述 跨体系对比、融合论述

维度 4:内容深度 depth_level

级别 说明 典型内容
入门 零基础可理解 气功是什么、基本概念介绍、健身气功
初级 需要基本气功知识 外混元阶段功法讲解、基础理论概览
中级 需要系统学习 内混元阶段功法、意元体深入、精义级内容
高级 深层理论与技术 中混元阶段功法、超常智能技术、混元整体观深层
专家 学术研究级 学术论文、科研数据、跨学科研究、原始实验报告

gongfa_type 的映射关系(建议联动打标):

功法阶段 建议默认深度
外混元 入门-初级
内混元 中级
中混元 高级
辅助/静功/静动功 按内容具体判断
通用 按内容具体判断

维度 5:教材归属 discipline

对应九册教材体系 + 非教材资料。

子项 对应教材
概论 《智能气功科学概论》
混元整体理论 《智能气功科学基础——混元整体理论》
精义 《智能气功科学精义》
功法学 《智能气功科学功法学》
超常智能 《智能气功科学技术——超常智能》
传统气功知识 《传统气功知识综述》
气功与文化 《气功与人类文化》
气功史 《中国气功发展简史》
现代科学研究 《气功的现代科学研究》
非教材 不属于九册教材体系的资料

维度 6:存在形式 media_format

子项 说明 自动提取方式
文本 纯文本、TXT、Markdown 扩展名 .txt .md
文档 Word、PDF 等文档 扩展名 .doc .docx .pdf
图片 图片文件 扩展名 .jpg .png .bmp .tiff
音频 MP3、WAV 等音频 扩展名 .mp3 .wav .m4a .flac .ogg
视频 MP4、MPG 等视频 扩展名 .mp4 .mpg .avi .mov .wmv
扫描版/图片PDF 需 OCR 的扫描件 需人工或 OCR 检测判断

从文件扩展名自动提取,覆盖率约 95%。


维度 7:讲授者 speaker

子项 说明
庞明主讲 庞明(庞鹤鸣)亲自讲授
庞明+助教 庞明讲授、助教辅助
助教辅导 助教独立授课或辅导
学员发言 学员提问、讨论、心得分享
特邀嘉宾 外部专家、嘉宾发言
其他 无法确定主讲者的内容

六、应标维度(详细定义)

维度 8:目标受众/课程级别 audience

由原方案的 audience(#4) 和 course_level(#7) 合并而来。

子项 说明
普通群众 面向公众的公开内容
康复班 康复班学员
教练员班 教练员培训班
师资班 师资培训班
大专课程 大专层次系统课程
学术交流/专题班 学术交流会、专题研讨
公开讲座 面向公众的讲座
科研人员 面向科研人员的内容
嘉宾/外部 面向外部嘉宾的内容

维度 9:时间线 timeline

阶段 时间范围 关键事件
早期探索 1980-1986 庞明开始创编智能气功
系统授课 1987-1988 首期系统授课
石家庄时期 1989-1991 石家庄进修学院时期
秦皇岛时期 1992-2000 华夏培训中心时期;1998 年国家审定首批健身气功功法
后中心期 2001-至今 传承发展、深化研究

不加更细的等距时间分段。如需定位特定事件,在 content_topic 的"重大事件"子项中标注。


维度 10:表现形式 presentation

子项 说明
书籍/教材 正式出版的书籍或教材
论文/文章 学术论文、期刊文章、杂志文章
讲课 课堂讲授(录音/录像/文字记录)
谈话/座谈 非正式谈话、座谈交流
笔记 学习笔记、听课笔记
问答 问答式内容(有明确提问与回答)
致辞/发言 会议致辞、庆典发言
信函 书信、通信
采访 媒体采访、访谈记录

course_type 的边界presentation 描述内容的固有形态(一段讲课录音的形态就是"讲课"),course_type 描述使用场景(同一段录音可能在系统授课中播放,也可能在公开讲座中播放)。


维度 11:数据来源 data_source

子项 说明
庞明主讲 庞明亲自讲授的原始记录
助教整理 助教根据讲课内容整理
组织制作 气功组织制作的资料
正式出版 出版社正式出版的资料
转录整理 从录音/录像转录为文字
汇编整理 从多个来源汇编整理
分享获取 通过分享渠道获取
数字化 纸质资料数字化

维度 12:资料状态 data_status

子项 说明
完整 完整无缺的资料
残缺 内容不完整
片段 仅为片段节选
整理中 正在整理
待校对 已整理但未校对
已校对 已完成校对
已编辑 已完成编辑处理
已发布 已正式发布
已归档 已归档保存

七、选标维度

以下维度"有则标注,无则跳过",不强制要求完整覆盖。

维度 13:场所地点 location

北京、石家庄、秦皇岛/华夏中心、济南、合肥、苏州/芜湖/阜阳、上海、武汉、广州、其他。

主要供资料归档管理使用,对检索贡献较低。

维度 14:课程性质 course_type

系统授课、短期培训、专题讲座、座谈讨论、开学/结业典礼、会议发言、庆典活动、非正式交流。

audience 高度相关但非一一映射。选标原因:对检索贡献有限,但归档管理时有价值。

维度 15:语言类型 language

简体中文、繁体中文、英文、中英对照、翻译。

当前数据 99% 为简体中文,自动提取即可。

维度 16:质量等级 quality

高、中、低(3 级)。

主观评价维度,建议后期由人工标注。

除讲授者外,资料中涉及的其他关键人物。自由文本或受控词表。

打标成本高,但对"除了庞明还有谁讨论过这个话题"类查询有价值。

维度 18:安全级别 security_level

public、internal、confidential、restricted。

当前数据 99% 为 public,设为选标。

维度 19:流通范围 distribution

内部交流、内部刊物、正式出版、网络公开、限制流通、保密。

security_level 高度相关。

维度 20:收录方式 recording_method

现场录音、现场录像、磁带转录、录像转音频、CD 转录、DVD 转录、广播录制、网络下载、数字化。

纯归档信息,不影响检索。


八、暂不实施的维度

以下两个维度在当前阶段暂不建字段。维度定义保留在受控词表中备查。

carrier_media(载体介质)

磁带、录像带、CD、DVD、VCD、U 盘/移动硬盘、云端、纸质、缩微胶片。

对已数字化资料意义不大。若后续需要追踪原始物理载体可激活。

academic_type(学术属性)

理论探讨、实践指导、科学研究、经验交流、历史记录、人物传记、评论综述、案例分析、操作手册、教材课本、参考工具。

content_topicpresentation 有较多交叉,且可从其他维度组合推断。


九、维度间关系

9.1 正交关系

大部分维度互相独立,可以自由组合。例如: - "混元气理论"(content_topic)可以出现在任何功法阶段(gongfa_type) - "入门"深度(depth_level)的内容可以是任何理论体系(theory_system)

9.2 联动关系

以下维度对建议联动打标:

维度 A 维度 B 联动规则
gongfa_type depth_level 外混元→入门/初级,内混元→中级,中混元→高级
discipline theory_system 九册教材默认"混元整体观"
media_format presentation 音频→讲课/谈话,文档→书籍/论文
speaker data_source 庞明主讲→庞明主讲/转录整理

联动是建议而非强制。打标时先填主维度,联动维度自动填充默认值,可手动覆盖。

9.3 矩阵视图(功法 × 理论层级)

                    理论层级
                    L0      L1      L2      L3
                 (方法论)(基础理论)(技术理论)(应用理论)
                ┌────────┬────────┬────────┬────────┐
  外混元(初级) │  ●     │  ●     │        │        │
                ├────────┼────────┼────────┼────────┤
  内混元(中级) │        │  ●     │  ●     │  ●     │
                ├────────┼────────┼────────┼────────┤
功法阶段         │        │        │  ●     │  ●     │
  中混元(高级) │        │        │        │        │
                ├────────┼────────┼────────┼────────┤
  通用           │  ●     │  ●     │  ●     │  ●     │
                └────────┴────────┴────────┴────────┘

● = 常见关联(非强制)

此矩阵用于检索时的联合过滤:用户说"我刚学捧气贯顶",系统推断 gongfa_type=外混元 + depth_level≤初级,优先推入门级内容。


十、技术实现方案

10.1 数据库设计

在现有 documents 表增加 JSONB 字段:

ALTER TABLE documents ADD COLUMN IF NOT EXISTS
  qigong_dimensions JSONB DEFAULT '{}';

-- GIN 索引支持高效 JSONB 查询
CREATE INDEX IF NOT EXISTS idx_documents_qigong_dims
  ON documents USING GIN (qigong_dimensions)
  WHERE category = '气功';

示例数据:

{
  "content_topic": ["功法", "调息"],
  "gongfa_type": "通用",
  "theory_system": "混元整体观",
  "depth_level": "中级",
  "discipline": "精义",
  "media_format": "视频",
  "speaker": "庞明主讲",
  "audience": "大专课程",
  "timeline": "秦皇岛时期",
  "presentation": "讲课",
  "data_source": "现场录像",
  "data_status": "待校对"
}

10.2 受控词表

建议新建 qigong_dimension_vocab 表管理维度定义:

CREATE TABLE IF NOT EXISTS qigong_dimension_vocab (
  dimension_code  VARCHAR(50) PRIMARY KEY,
  dimension_name  VARCHAR(100) NOT NULL,
  level           VARCHAR(10) NOT NULL DEFAULT 'required',
  sub_items       JSONB NOT NULL DEFAULT '[]',
  auto_extract    BOOLEAN DEFAULT FALSE,
  description     TEXT,
  updated_at      TIMESTAMP DEFAULT NOW()
);

好处: - 维度定义可动态更新,不需要改代码 - 前端录入表单可从词表自动生成 - 检索时可校验用户输入是否为合法子项

10.3 查询示例

-- 查找内混元阶段、形神庄相关、庞明主讲的资料
SELECT id, title,
       qigong_dimensions->>'gongfa_type' AS gongfa,
       qigong_dimensions->>'depth_level' AS depth
FROM documents
WHERE category = '气功'
  AND qigong_dimensions @> '{"gongfa_type": "形神庄"}'::jsonb
  AND qigong_dimensions @> '{"speaker": "庞明主讲"}'::jsonb;

-- 查找入门级、混元整体观理论体系的资料
SELECT id, title
FROM documents
WHERE category = '气功'
  AND qigong_dimensions @> '{"depth_level": "入门", "theory_system": "混元整体观"}'::jsonb;

-- 查找 content_topic 包含"调息"的资料(数组包含查询)
SELECT id, title
FROM documents
WHERE category = '气功'
  AND qigong_dimensions->'content_topic' ? '调息';

十一、实施路线

第一期:规则引擎自动打标(立即可做)

利用文件路径中编码的信息,通过正则匹配提取基础维度。

路径模式示例

/大专班/精义/34/285明了调息的目的和作用C.mpg
  → audience = "大专课程"
  → discipline = "精义"
  → content_topic = ["功法", "调息"]
  → media_format = "视频"
  → speaker = "庞明主讲"(默认值)

/音频/教练员班/混元气理论2.1.mp3
  → audience = "教练员班"
  → content_topic = ["理论", "混元气理论"]
  → media_format = "音频"

/健身气功/健身气功八段锦/
  → theory_system = "健身气功"
  → gongfa_type = "通用"
  → content_topic = ["功法", "功理总论"]

预计覆盖率

维度 提取来源 预计覆盖率
media_format 文件扩展名 ~95%
audience 路径中班次关键词 ~60%
content_topic 路径+标题关键词匹配 ~50%
discipline 路径中教材关键词 ~40%
speaker 路径中"庞鹤鸣"/"庞明" ~40%
theory_system 路径中"健身气功"等 ~30%
gongfa_type 标题中功法名 ~30%
timeline 路径中年份(如有) ~20%

第二期:ASR 转写 + NLP 增强打标

  1. 使用 FunASR/SenseVoice 将 2,367 个 MP3 和 1,225 个视频转写为文本
  2. 对转写文本用关键词 + 规则匹配补充维度标签
  3. 对已有文本内容(PDF、Word、TXT)做 NLP 分析,提取 content_topictheory_systemdepth_level

第三期:人工审核 + 知识图谱

  1. 对自动打标结果做抽样审核(优先审核高价值条目)
  2. 建立维度间的关联关系(如"形神庄"↔"内混元阶段"↔"经络混元")
  3. 支持推理式检索(问"内混元阶段练什么"能关联到形神庄 + 五元庄)

十二、待确认事项

在动手实施前,以下问题需要定夺:

# 问题 选项
1 content_topic 分两层(一个维度)还是拆成两个维度? A. 两层(推荐) / B. 两个维度
2 course_level 合并进 audience 是否同意? A. 合并(推荐) / B. 保留
3 depth_levelgongfa_type 是否联动打标? A. 联动(推荐) / B. 独立标注
4 实施范围:先做必标 7 维度还是全部 20 维度? A. 必标 7 维先行(推荐) / B. 全部
5 受控词表是否需要新建数据表管理? A. 新建词表(推荐) / B. 硬编码在代码中
6 路径解析规则是否需要覆盖所有 13,564 篇文档? A. 全覆盖 / B. 优先覆盖主要路径模式(推荐)

附录 A:维度速查表

# 维度 代码 级别 子项数 主要打标方式
1 主题内容 content_topic 必标 5×~6 关键词+NLP
2 功法类型 gongfa_type 必标 15 关键词匹配
3 理论体系 theory_system 必标 6 关键词+规则
4 内容深度 depth_level 必标 5 交叉推断
5 教材归属 discipline 必标 10 路径提取
6 存在形式 media_format 必标 6 扩展名提取
7 讲授者 speaker 必标 6 路径+关键词
8 目标受众 audience 应标 9 路径提取
9 时间线 timeline 应标 5 路径+内容推断
10 表现形式 presentation 应标 9 规则+人工
11 数据来源 data_source 应标 8 规则推断
12 资料状态 data_status 应标 9 流程状态
13 场所地点 location 选标 10 人工
14 课程性质 course_type 选标 8 规则推断
15 语言类型 language 选标 5 自动提取
16 质量等级 quality 选标 3 人工
17 关联人物 related_persons 选标 开放 人工
18 安全级别 security_level 选标 4 规则
19 流通范围 distribution 选标 6 规则
20 收录方式 recording_method 选标 9 人工

附录 B:与原方案对照表

原方案 # 原维度 本方案处理
1 时间线 timeline → 维度 9,应标,5 段
2 存在形式 media_format → 维度 6,必标
3 表现形式 presentation → 维度 10,应标
4 对应受众 audience → 维度 8,与 course_level 合并
5 涉及内容 content_topic → 维度 1,必标,两级结构
6 场所地点 location → 维度 13,选标
7 课程级别 course_level 合并进 audience(维度 8)
8 安全级别 security_level → 维度 18,选标
9 来源属性 data_source → 维度 11,应标
10 资料状态 data_status → 维度 12,应标
11 功法类型 gongfa_type → 维度 2,必标,三阶段六步
12 语言类型 language → 维度 15,选标
13 质量等级 quality → 维度 16,选标,简化为 3 级
14 课程性质 course_type → 维度 14,选标
15 授课人员 speaker → 维度 7,必标
16 收录方式 recording_method → 维度 20,选标
17 载体介质 carrier_media 暂不实施
18 流通范围 distribution → 维度 19,选标
19 内容深度 depth_level → 维度 4,必标,5 级
20 学术属性 academic_type 暂不实施
新增 理论体系 theory_system → 维度 3,必标
新增 教材归属 discipline → 维度 5,必标(从原 #9 拆出)
新增 关联人物 related_persons → 维度 17,选标

附录 C:术语说明

术语 说明
必标 每篇文档必须标注的维度,检索核心过滤条件
应标 尽量标注,允许部分文档缺失
选标 有则标注,无则跳过
联动打标 一个维度的值确定后,另一个维度自动填充默认值
受控词表 预定义的合法标签集合,防止同义词造成分类不一致
JSONB PostgreSQL 的 JSON 二进制存储格式,支持索引和包含查询