跳转至

智能知识系统 - 分步实施规划 V2.0 (修订版)

⚠️ **归档文档 — 数据已过时** 本报告为历史快照存档。当前版本 **v1.3.0-dev**,232 测试通过。 👉 最新工程状态请参阅 **[ENGINEERING_ALIGNMENT.md](ENGINEERING_ALIGNMENT.md)**

版本: 2.0.0 日期: 2026-03-25 基于: Week 1 实际开发经验 适用场景: 1人全职开发


修订摘要

项目 V1.0 V2.0 变化
阶段数 7 5 精简
预计时间 30-45天 9-14天 更实际
技术栈 10+ 5 精简
开发模式 复杂 增量 更灵活

总体策略

核心理念:快速迭代,持续交付

阶段1: MVP + 基础数据 (1-2天)  ✅ 已完成
阶段2: 向量检索 (2-3天)
  ├── pgvector 已配置
  ├── BGE 嵌入 API
  └── 向量相似度搜索
阶段3: RAG 问答 (2-3天)
  ├── DeepSeek API 集成
  ├── Prompt 模板
  └── 对话界面
阶段4: 数据迁移 (1-2天)
  ├── ima 知识库数据
  ├── 批量导入
  └── 验证
阶段5: 优化上线 (2-3天)
  ├── 性能优化
  ├── 测试完善
  └── 部署文档

📋 阶段 1: MVP 基础 (已完成)

实际完成情况

任务 状态 备注
PostgreSQL + pgvector 已配置
FastAPI 后端 9个 API 端点
Web 界面 简洁美观
Docker 部署 一键启动
测试套件 10/10 通过

实际服务端口

服务 端口 说明
kb-postgres-new 5436 PostgreSQL
kb-api-new 8001 FastAPI
kb-nginx-new 8008 Web UI

访问地址

  • 前端: http://localhost:8008
  • API: http://localhost:8001
  • 文档: http://localhost:8001/docs

📋 阶段 2: 向量检索 (2-3天)

目标

  • 实现语义搜索能力
  • 提升检索准确率

架构

┌─────────────────────────────────┐
│         向量检索架构            │
├─────────────────────────────────┤
│                                 │
│  用户查询                       │
│     ↓                           │
│  文本嵌入 (BGE API)             │
│     ↓                           │
│  向量相似度搜索 (pgvector)      │
│     ↓                           │
│  结果返回                       │
│                                 │
└─────────────────────────────────┘

任务清单

# 2.1 配置嵌入服务 (半天)
├── [ ] 选择 BGE API 服务
├── [ ] 实现嵌入 API 调用
└── [ ] 测试嵌入效果

# 2.2 向量表准备 (半天)
├── [ ] 生成文档嵌入向量
├── [ ] 更新数据库表结构
└── [ ] 批量导入向量

# 2.3 向量检索 API (1天)
├── [ ] 实现向量检索接口
├── [ ] 实现混合检索 (向量+关键词)
└── [ ] 结果排序优化

# 2.4 测试验证 (半天)
├── [ ] 单元测试
├── [ ] 准确率测试
└── [ ] 性能测试

技术选型

组件 选择 理由
嵌入模型 BGE API 无需本地部署
向量数据库 pgvector 已有,无需额外服务
相似度 余弦 标准做法

API 设计

# 新增 API
GET  /api/search/vector?q={query}&k=5
POST /api/documents/{id}/embed
GET  /api/search/hybrid?q={query}&k=5

验收标准

  • [ ] 向量检索正常工作
  • [ ] 检索准确率 > 关键词检索
  • [ ] 响应时间 < 1s

📋 阶段 3: RAG 问答 (2-3天)

目标

  • 实现智能问答
  • 集成 LLM 能力

架构

┌─────────────────────────────────┐
│         RAG Pipeline            │
├─────────────────────────────────┤
│                                 │
│  用户问题                       │
│     ↓                           │
│  向量检索 → 找到相关文档        │
│     ↓                           │
│  构建 Prompt                    │
│     ↓                           │
│  LLM 生成答案 (DeepSeek)         │
│     ↓                           │
│  返回答案+来源                  │
│                                 │
└─────────────────────────────────┘

任务清单

# 3.1 LLM 集成 (1天)
├── [ ] 配置 DeepSeek API
├── [ ] 实现 LLM 调用封装
├── [ ] 设计 Prompt 模板
└── [ ] 测试问答效果

# 3.2 RAG 管道 (1天)
├── [ ] 实现上下文检索
├── [ ] 实现答案生成
├── [ ] 添加来源引用
└── [ ] 对话历史管理

# 3.3 前端对话 (半天)
├── [ ] 对话界面优化
├── [ ] Markdown 渲染
└── [ ] 来源高亮显示

Prompt 模板

RAG_PROMPT = """
你是{domain}领域的知识助手。请基于以下上下文回答用户问题。

上下文:
{context}

问题:{question}

要求:
1. 基于上下文回答,不要编造
2. 如果上下文不足,诚实告知
3. 引用具体的来源
"""

验收标准

  • [ ] RAG 问答正常工作
  • [ ] 答案准确率 > 80%
  • [ ] 包含来源引用

📋 阶段 4: 数据迁移 (1-2天)

目标

  • 迁移 ima 知识库数据
  • 建立完整知识库

数据来源

知识库 来源 预估数量
混元灵通 ima 待确认
中国古籍 ima 待确认
中医宝典 ima 待确认

迁移方案

方案 A: 手动迁移
├── 1. ima 中复制内容
├── 2. 粘贴到迁移工具
└── 3. 批量导入

方案 B: 自动化脚本
├── 1. 获取 ima API 访问
├── 2. 编写爬虫脚本
└── 3. 自动同步

验收标准

  • [ ] 知识库 > 100 条文档
  • [ ] 数据质量验证通过
  • [ ] 检索功能正常

📋 阶段 5: 优化上线 (2-3天)

目标

  • 生产就绪
  • 文档完善

任务清单

# 5.1 性能优化 (1天)
├── [ ] Redis 缓存实现
├── [ ] 数据库索引优化
├── [ ] 查询结果缓存
└── [ ] 性能测试

# 5.2 测试完善 (半天)
├── [ ] 完善单元测试
├── [ ] 添加集成测试
└── [ ] 压力测试

# 5.3 文档编写 (半天)
├── [ ] API 文档完善
├── [ ] 部署文档
├── [ ] 使用手册
└── [ ] 运维手册

部署检查清单

  • [ ] 环境变量配置
  • [ ] 数据备份策略
  • [ ] 日志配置
  • [ ] 监控告警
  • [ ] 安全检查

📊 进度跟踪

阶段 状态 完成度
阶段1: MVP ✅ 完成 100%
阶段2: 向量检索 ⏳ 待开始 0%
阶段3: RAG 问答 ⏳ 待开始 0%
阶段4: 数据迁移 ⏳ 待开始 0%
阶段5: 优化上线 ⏳ 待开始 0%

🎯 立即行动

优先级 P0 (立即执行)

  1. 确认 ima 数据迁移方案
  2. 开始阶段 2 开发

优先级 P1 (本周完成)

  1. 完成向量检索功能
  2. 集成 DeepSeek API
  3. 迁移知识库数据

总结

V2.0 规划特点: - ✅ 更实际的时间估算 - ✅ 精简的技术栈 - ✅ 适合单人开发 - ✅ 增量式交付 - ✅ 持续验证

预计完成时间: 9-14 天 (约 2 周)