跳转至

guoxue.db V4 维度应用可行性分析

数据源: /lingzhi_ubuntu/database/guoxue.db 数据库大小: 6.7 GB 评估日期: 2026-04-02


一、数据概览

1.1 数据结构

guoxue.db
├── wx (主表, 空)
├── wx200 (105,214 条)
├── wx1022, wx223, wx517... (多个微信文章表)
├── wx19540, wx22313... (数百个表)
└── 总记录数: 估计 100 万+ 条

1.2 内容样本分析

类型 示例 来源
禅宗语录 "(幽州第二世住)僧问。如何出得三界..." 禅宗典籍
风水文献 "本地姜地理峦头诀" 民间文献
历史文献 "林则徐附奏东西各洋越窜夷船严行惩办片" 历史档案
诗词作品 "吕卿豪杰士,家世两申公..." 古诗词
笔记小说 "旦扮莺引旦俫扮红上...《红楼梦》相关" 古典小说
方志史料 "天童寺建于晋时..." 地方志

二、V4 维度适配方案 (国学版 V4-GX)

2.1 气功 V4 → 国学 V4 映射

气功 V4 国学 V4-GX 说明
theory_system discipline_type 经史子集分类
content_topic content_category 儒家/佛家/道家/史部
gongfa_method sub_discipline 诗经/史记/论语等具体经典
teaching_level difficulty_level 入门/中级/高级
timeline dynasty 唐/宋/元/明/清
speaker author_or_source 作者/来源
media_format document_type 文本/碑刻/手抄

2.2 国学专属维度

维度 代码 说明 示例值
经史分类 jingshi_class 四部分类法 经部/史部/子部/集部
朝代 dynasty 创作年代 唐/宋/元/明/清
文体 genre 文学体裁 诗/词/赋/散文/小说
主题 theme 内容主题 禅修/风水/医学/军事
版本 edition 版本类型 刻本/抄本/印本
作者 author 作者或编者 李白/杜甫/佚名

三、数据提取规则

3.1 从 body 内容提取

def parse_guoxue_dimensions(body, table_name):
    dims = {
        'discipline_type': '子部',  # 默认
        'content_category': [],
        'dynasty': '清代',  # 默认
        'genre': '散文',
        'theme': [],
        'document_type': '文本',
    }

    # 提取朝代
    if '唐' in body or '唐代' in body:
        dims['dynasty'] = '唐代'
    elif '宋' in body or '宋代' in body:
        dims['dynasty'] = '宋代'
    elif '明' in body or '明代' in body:
        dims['dynasty'] = '明代'

    # 提取主题
    if '禅' in body or '僧' in body:
        dims['content_category'].append('佛家')
        dims['theme'].append('禅宗')
    elif '风水' in body or '堪舆' in body:
        dims['content_category'].append('子部')
        dims['theme'].append('风水')
    elif '诗' in body and not body.count('诗') > 2:
        dims['genre'] = '诗歌'

    return dims

3.2 从表名提取

表名模式 领域 说明
wx200 综合 综合国学
wx19540 待分析 需要采样
wx22313 待分析 需要采样
wx517 待分析 需要采样

四、实施建议

4.1 Phase 1: 数据探索 (1周)

-- 采样分析各表内容
SELECT table_name, COUNT(*) as count
FROM (
    SELECT 'wx200' as table_name, COUNT(*) FROM wx200
    UNION ALL
    SELECT 'wx1022', COUNT(*) FROM wx1022
    UNION ALL
    SELECT 'wx223', COUNT(*) FROM wx223
    LIMIT 20
) t
ORDER BY count DESC;

任务: 1. 统计各表记录数和内容类型 2. 采样分析 20 个表的内容特征 3. 建立表名→内容类型映射

4.2 Phase 2: 维度设计 (1周)

-- 创建国学受控词表
CREATE TABLE guoxue_dimension_vocab (
    dimension_code VARCHAR(50) PRIMARY KEY,
    dimension_name VARCHAR(100),
    category VARCHAR(10),  -- J/S/Z/J (经史子集)
    sub_items JSONB
);

核心维度: 1. jingshi_class: 经部/史部/子部/集部 2. dynasty: 先秦/汉/唐/宋/元/明/清 3. genre: 诗/词/赋/散文/小说/戏曲 4. theme: 禅修/风水/医学/军事/经世

4.3 Phase 3: 批量打标 (2周)

# 复用 V4 框架
class GuoxueContentParser:
    def parse_from_body(self, body, table_name):
        # 检测朝代关键词
        # 检测主题关键词
        # 检测文体特征
        # 返回国学 V4 维度

五、预期效果

指标 当前 (仅气功) 导入国学后
documents 表记录 13,875 ~150,000
覆盖领域 气功 气功 + 国学
维度体系 V4 (气功专用) V4-GX (国学版)
检索能力 气功检索 跨领域检索

六、与其他数据源对比

数据源 记录数 领域 V4 适配
documents (现有) 13,875 气功 V4 (气功版) ✅
Sys_books.db 150,000 气功为主 V4 (气功版) ✅
guoxue.db 1,000,000+ 国学 V4-GX (国学版) ✅
其他 (医学等) 待评估 医学/中医 V4-Med (医学版) ✅

七、结论

7.1 可行性评估: ✅ 高度可行

理由: 1. 数据量充足: 100 万+ 条国学数据 2. 结构清晰: 文本内容可直接分析 3. 分类标准: 四部分类法成熟,可映射到 V4 4. 框架复用: V4 JSONB 架构完全适用

7.2 实施建议

优先级 P0 (立即执行):
  ├── 采样分析 wx200 表 (10万+ 条)
  ├── 设计国学版受控词表
  └── 实现国学内容解析器

优先级 P1 (本月完成):
  ├── 批量打标 wx200 表
  ├── 建立国学检索接口
  └── 生成国学数据报告

优先级 P2 (下月执行):
  ├── 扩展到其他表 (wx1022, wx223...)
  ├── 建立跨领域关联检索
  └── 实现国学知识图谱

评估人: Claude AI 下一步: 开始 Phase 1 数据探索