Sys_books.db V4 维度应用可行性评估报告
数据源: /data/external/Sys_books.db
评估日期: 2026-04-02
数据规模: 3,024,428 条书籍记录
一、数据概览
1.1 总体统计
| 指标 |
数值 |
| 总记录数 |
3,024,428 |
| 类别数 |
2,119 |
| 来源数 |
4 |
| 文件类型 |
2 |
1.2 智能气功相关数据
| 类别 |
记录数 |
说明 |
| ZNQG 相关总量 |
~150,000 |
智能气功专门分类 |
| 百度云9080\ZNQG |
51,823 |
主分类 |
| 百度云2362\ZNQG新整理 |
37,518 |
整理后数据 |
| 智能 |
25,946 |
通用分类 |
| 115\Zhineng |
21,954 |
国学大师分类 |
二、数据结构与 V4 映射
2.1 现有字段分析
| 字段 |
类型 |
V4 映射 |
可用性 |
category |
TEXT |
teaching_level |
✅ 高 |
filename |
TEXT |
content_topic, gongfa_method |
✅ 高 |
source |
TEXT |
timeline (路径中年份) |
✅ 中 |
file_type |
TEXT |
media_format |
✅ 高 |
author |
TEXT |
speaker |
✅ 中 |
year |
TEXT |
timeline |
✅ 中 |
path |
TEXT |
辅助信息 |
✅ 低 |
2.2 高价值细分类别
音频资料 (~1,500 条)
ZNQG音频/
├── 1987-1988年北京海淀大学讲课 (??)
├── 1988.4全国形神庄辅导员培训班 (62)
├── 1988-1991石家庄进修学院 (65)
├── 师资班座谈录音 (66)
├── 1996.3月在骨干提高班上的讲话 (38)
├── 1996.5第五届全国智能气功科学学术交流会 (6)
└── ... (按时间/活动分类)
V4 映射:
- category → teaching_level: 辅导员班、师资班、骨干提高班
- filename → content_topic: 混元气理论、形神庄
- category 年份 → timeline: 1987-1996 各时期
视频资料 (~100 条)
ZNQG视频/
├── 1988.4_石家庄_全国形神庄辅导员培训班 (多个)
├── 1993_辅导员班讲课_混元气理论
├── 1993_辅导员班讲课_运用意识
├── 1996_康复班讲课:怎样运用意识
├── 1997.7.15_庞老师在提高班上的讲课_关于气功医疗
├── 练气八法-前四法
└── ... (教学视频、宣传片、病例)
V4 映射:
- filename → gongfa_method: 形神庄、练气八法
- filename → content_topic: 混元气理论、运用意识、气功医疗
- filename → teaching_level: 辅导员班、康复班、提高班
- filename → presentation: 讲课 (视频格式)
三、V4 维度适配方案
3.1 直接映射字段
| V4 维度 |
Sys_books 字段 |
提取规则 |
teaching_level |
category |
正则: "(辅导员班|师资班|康复班|提高班|大专)" |
content_topic |
filename |
正则: "(混元气理论|形神庄|运用意识|组场)" |
gongfa_method |
filename |
正则: "(形神庄|捧气贯顶|五元庄|练气八法)" |
media_format |
file_type/extension |
映射: "视频"→video, "音频"→audio |
timeline |
category (年份) |
正则: "(19\d{2})" |
speaker |
filename/author |
正则: "庞" → "庞明主讲" |
3.2 推断维度
| V4 维度 |
推断规则 |
theory_system |
默认 "混元整体理论" |
content_depth |
根据 teaching_level 推断 |
presentation |
根据 media_format 推断 |
security_level |
默认 "public" |
四、实施建议
4.1 Phase 1: 数据导出与清洗 (1周)
-- 导出智能气功相关数据
SELECT * FROM books
WHERE category LIKE '%ZNQG%'
OR category LIKE '%智能%'
OR category LIKE '%Zhineng%';
清洗任务:
1. 标准化 category 名称 (去除 "百度云9080\" 等前缀)
2. 提取 timeline 信息 (从 category 和 filename)
3. 识别 file_type (从 extension)
4.2 Phase 2: 批量打标 (2周)
# 复用现有打标引擎
from backend.services.qigong import QigongContentParser
parser = QigongContentParser()
for book in sys_books:
dims = parser.parse_from_title_content(
book['filename'],
book.get('content', '')
)
# 补充 Sys_books 特有信息
if '1988' in book['category']:
dims['timeline'] = '石家庄时期 (1989-1991)'
# ...
4.3 Phase 3: 数据导入 (1周)
-- 导入到 documents 表
INSERT INTO documents (title, content, category, qigong_dims)
VALUES (
sys_book['filename'],
sys_book.get('content', ''),
'气功',
sys_book_dims::jsonb
);
五、预期效果
5.1 数据增量
| 来源 |
记录数 |
V4 可应用数 |
| 当前 documents 表 |
13,875 |
13,875 (100%) |
| Sys_books.db ZNQG |
~150,000 |
~50,000 (33%) |
| 合计 |
~163,875 |
~63,875 |
5.2 数据质量提升
| 维度 |
当前 |
导入后 |
| timeline 覆盖率 |
0% |
~40% (有时间戳数据) |
| teaching_level 覆盖率 |
31% |
~60% (有明确分类) |
| 音频资料 |
2,794 |
~4,000 (新增 1,200+) |
| 视频资料 |
1,769 |
~1,900 (新增 100+) |
六、风险与挑战
| 风险 |
影响 |
缓解措施 |
| 重复数据 |
文档去重问题 |
基于 filename + size 建立唯一键 |
| 内容缺失 |
Sys_books 无 content 字段 |
仅基于 filename 打标,质量略低 |
| 类别混乱 |
前缀不一致 (百度云9080\ 等) |
预处理标准化 |
| 数据量巨大 |
15 万条处理耗时 |
分批处理,优先高价值数据 |
七、结论
7.1 可行性评估: ✅ 高度可行
理由:
1. 数据丰富: Sys_books.db 包含 15 万条智能气功相关记录
2. 结构清晰: category/filename 包含明确的维度信息
3. 时间覆盖: 1987-2000 年代完整时间线
4. 类型完整: 音频、视频、文本资料齐全
7.2 推荐执行顺序
1. 导出 ZNQG 音频资料 (~1,500 条) → 高价值,易处理
2. 导出 ZNQG 视频资料 (~100 条) → 补充视频库
3. 导出 ZNQG 主分类 (~15 万条) → 批量处理,分批导入
7.3 预期收益
- 数据量: 13,875 → 63,875 (+360%)
- 时间覆盖: 无 → 1987-2000 完整时间线
- 媒体资料: 音频 +1,200,视频 +100
- 检索能力: 新增按时间线、活动类型检索
八、扩展性分析:医学类资料
8.1 医学相关数据
Sys_books.db 包含以下医学相关类别:
- 百度云9080\中医学习与工作: 63,995
- 古籍: 335,437 (包含中医古籍)
- 哲社: 125,849 (包含医学哲学)
8.2 V4 适配方案 (医学版)
| 气功 V4 |
医学 V4' |
说明 |
| theory_system |
medical_system |
中医/西医/中西医结合 |
| content_topic |
medical_topic |
诊断/治疗/方剂/经络 |
| gongfa_method |
treatment_method |
针灸/推拿/方药/气功 |
| teaching_level |
difficulty_level |
入门/临床/专科 |
| discipline |
medical_discipline |
内科/外科/针灸/推拿 |
8.3 实施
可以基于 V4 框架创建医学维度体系:
- 复用数据结构 (JSONB + GIN 索引)
- 复用打标引擎 (修改关键词规则)
- 复用受控词表 (新增医学子项)
执行人: Claude AI
下一步: 开始 Phase 1 数据导出与清洗