guoxue.db V4 维度应用可行性分析

数据源: /lingzhi_ubuntu/database/guoxue.db 数据库大小: 6.7 GB 评估日期: 2026-04-02

一、数据概览

1.1 数据结构

guoxue.db
├── wx (主表, 空)
├── wx200 (105,214 条)
├── wx1022, wx223, wx517... (多个微信文章表)
├── wx19540, wx22313... (数百个表)
└── 总记录数: 估计 100 万+ 条

1.2 内容样本分析

类型	示例	来源
禅宗语录	"(幽州第二世住)僧问。如何出得三界..."	禅宗典籍
风水文献	"本地姜地理峦头诀"	民间文献
历史文献	"林则徐附奏东西各洋越窜夷船严行惩办片"	历史档案
诗词作品	"吕卿豪杰士，家世两申公..."	古诗词
笔记小说	"旦扮莺引旦俫扮红上...《红楼梦》相关"	古典小说
方志史料	"天童寺建于晋时..."	地方志

二、V4 维度适配方案 (国学版 V4-GX)

2.1 气功 V4 → 国学 V4 映射

气功 V4	国学 V4-GX	说明
theory_system	discipline_type	经史子集分类
content_topic	content_category	儒家/佛家/道家/史部
gongfa_method	sub_discipline	诗经/史记/论语等具体经典
teaching_level	difficulty_level	入门/中级/高级
timeline	dynasty	唐/宋/元/明/清
speaker	author_or_source	作者/来源
media_format	document_type	文本/碑刻/手抄

2.2 国学专属维度

维度	代码	说明	示例值
经史分类	jingshi_class	四部分类法	经部/史部/子部/集部
朝代	dynasty	创作年代	唐/宋/元/明/清
文体	genre	文学体裁	诗/词/赋/散文/小说
主题	theme	内容主题	禅修/风水/医学/军事
版本	edition	版本类型	刻本/抄本/印本
作者	author	作者或编者	李白/杜甫/佚名

三、数据提取规则

3.1 从 body 内容提取

def parse_guoxue_dimensions(body, table_name):
    dims = {
        'discipline_type': '子部',  # 默认
        'content_category': [],
        'dynasty': '清代',  # 默认
        'genre': '散文',
        'theme': [],
        'document_type': '文本',
    }

    # 提取朝代
    if '唐' in body or '唐代' in body:
        dims['dynasty'] = '唐代'
    elif '宋' in body or '宋代' in body:
        dims['dynasty'] = '宋代'
    elif '明' in body or '明代' in body:
        dims['dynasty'] = '明代'

    # 提取主题
    if '禅' in body or '僧' in body:
        dims['content_category'].append('佛家')
        dims['theme'].append('禅宗')
    elif '风水' in body or '堪舆' in body:
        dims['content_category'].append('子部')
        dims['theme'].append('风水')
    elif '诗' in body and not body.count('诗') > 2:
        dims['genre'] = '诗歌'

    return dims

3.2 从表名提取

表名模式	领域	说明
wx200	综合	综合国学
wx19540	待分析	需要采样
wx22313	待分析	需要采样
wx517	待分析	需要采样

四、实施建议

4.1 Phase 1: 数据探索 (1周)

-- 采样分析各表内容
SELECT table_name, COUNT(*) as count
FROM (
    SELECT 'wx200' as table_name, COUNT(*) FROM wx200
    UNION ALL
    SELECT 'wx1022', COUNT(*) FROM wx1022
    UNION ALL
    SELECT 'wx223', COUNT(*) FROM wx223
    LIMIT 20
) t
ORDER BY count DESC;

任务: 1. 统计各表记录数和内容类型 2. 采样分析 20 个表的内容特征 3. 建立表名→内容类型映射

4.2 Phase 2: 维度设计 (1周)

-- 创建国学受控词表
CREATE TABLE guoxue_dimension_vocab (
    dimension_code VARCHAR(50) PRIMARY KEY,
    dimension_name VARCHAR(100),
    category VARCHAR(10),  -- J/S/Z/J (经史子集)
    sub_items JSONB
);

核心维度: 1. jingshi_class: 经部/史部/子部/集部 2. dynasty: 先秦/汉/唐/宋/元/明/清 3. genre: 诗/词/赋/散文/小说/戏曲 4. theme: 禅修/风水/医学/军事/经世

4.3 Phase 3: 批量打标 (2周)

# 复用 V4 框架
class GuoxueContentParser:
    def parse_from_body(self, body, table_name):
        # 检测朝代关键词
        # 检测主题关键词
        # 检测文体特征
        # 返回国学 V4 维度

五、预期效果

指标	当前 (仅气功)	导入国学后
documents 表记录	13,875	~150,000
覆盖领域	气功	气功 + 国学
维度体系	V4 (气功专用)	V4-GX (国学版)
检索能力	气功检索	跨领域检索

六、与其他数据源对比

数据源	记录数	领域	V4 适配
documents (现有)	13,875	气功	V4 (气功版) ✅
Sys_books.db	150,000	气功为主	V4 (气功版) ✅
guoxue.db	1,000,000+	国学	V4-GX (国学版) ✅
其他 (医学等)	待评估	医学/中医	V4-Med (医学版) ✅

七、结论

7.1 可行性评估: ✅ 高度可行

理由: 1. 数据量充足: 100 万+ 条国学数据 2. 结构清晰: 文本内容可直接分析 3. 分类标准: 四部分类法成熟，可映射到 V4 4. 框架复用: V4 JSONB 架构完全适用

7.2 实施建议

优先级 P0 (立即执行):
  ├── 采样分析 wx200 表 (10万+ 条)
  ├── 设计国学版受控词表
  └── 实现国学内容解析器

优先级 P1 (本月完成):
  ├── 批量打标 wx200 表
  ├── 建立国学检索接口
  └── 生成国学数据报告

优先级 P2 (下月执行):
  ├── 扩展到其他表 (wx1022, wx223...)
  ├── 建立跨领域关联检索
  └── 实现国学知识图谱

评估人: Claude AI 下一步: 开始 Phase 1 数据探索