灵知系统 v2.0 - 完整技术总结
版本: 2.0.0 完成日期: 2026-03-31 项目: 灵知智能知识系统
🌟 系统愿景
灵知系统是一个以智能气功为核心,融合儒释道医武哲科气九大类别的活的知识有机体。
它具备五大核心能力,使其成为真正的智能系统:
- 智能检索 - 向量语义搜索,精准知识获取
- 自学习进化 - GitHub监控 + 自主搜索 + 实验验证
- 内容生成 - 报告/PPT/音频/视频/课程自动生成
- 外部集成 - 标准化API,支持第三方集成
- 自优化 - LingMinOpt框架,持续自我完善
📁 完整目录结构
/home/ai/zhineng-knowledge-system/
│
├── backend/ # 后端服务
│ ├── api/
│ │ └── v1/ # API v1 路由
│ │ ├── __init__.py # 路由注册(已更新)
│ │ ├── books.py # 书籍搜索
│ │ ├── documents.py # 文档管理
│ │ ├── gateway.py # 网关路由
│ │ ├── health.py # 健康检查
│ │ ├── reasoning.py # 推理服务
│ │ ├── search.py # 搜索服务
│ │ ├── textbook_processing.py
│ │ ├── learning.py # 🆕 自学习API
│ │ ├── generation.py # 🆕 内容生成API
│ │ ├── external.py # 🆕 外部API
│ │ ├── annotation.py # 🆕 标注系统API
│ │ └── optimization.py # 🆕 自优化API
│ │
│ ├── config/ # 配置管理
│ │ ├── base.py # 基础配置
│ │ └── security.py # 安全配置
│ │
│ ├── core/ # 核心功能
│ │ ├── database.py # 数据库
│ │ ├── dependency_injection.py # 依赖注入
│ │ ├── lifespan.py # 🆕 生命周期(集成学习调度器)
│ │ └── services.py # 服务管理
│ │
│ ├── middleware/ # 中间件
│ │ ├── rate_limit.py # 速率限制
│ │ └── security_headers.py # 安全头
│ │
│ ├── services/ # 业务服务
│ │ │
│ │ ├── retrieval/ # 检索服务
│ │ │ ├── vector.py # 向量检索
│ │ │ ├── bm25.py # BM25检索
│ │ │ └── custom_dict.txt # 自定义词典
│ │ │
│ │ ├── learning/ # 🆕 自学习服务
│ │ │ ├── github_monitor.py # GitHub监控
│ │ │ ├── innovation_manager.py # 创新管理
│ │ │ ├── autonomous_search.py # 自主搜索
│ │ │ └── scheduler.py # 定时调度
│ │ │
│ │ ├── generation/ # 🆕 内容生成服务
│ │ │ ├── base.py # 生成器基类
│ │ │ ├── report_generator.py # 报告生成
│ │ │ ├── ppt_generator.py # PPT生成
│ │ │ ├── audio_generator.py # 音频生成
│ │ │ ├── video_generator.py # 视频生成
│ │ │ ├── course_generator.py # 课程生成
│ │ │ └── data_analyzer.py # 数据分析
│ │ │
│ │ ├── annotation/ # 🆕 标注服务
│ │ │ ├── base.py # 标注器基类
│ │ │ ├── ocr_annotator.py # OCR标注
│ │ │ ├── transcription_annotator.py # 转写标注
│ │ │ └── annotation_manager.py # 标注管理
│ │ │
│ │ └── optimization/ # 🆕 自优化服务
│ │ ├── lingminopt.py # LingMinOpt框架
│ │ ├── feedback_collector.py # 反馈收集
│ │ ├── error_analyzer.py # 错误分析
│ │ └── auditor.py # 系统审计
│ │
│ ├── main.py # 应用入口
│ └── requirements.txt # 依赖包
│
├── docs/ # 📚 文档
│ ├── AUTO_LEARNING_GUIDE.md # 🆕 自学习指南
│ ├── GENERATION_AND_API_GUIDE.md # 🆕 生成与API指南
│ ├── SELF_OPTIMIZATION_GUIDE.md # 🆕 自优化指南
│ └── CAPABILITIES_OVERVIEW.md # 🆕 能力概览
│
├── docker-compose.yml # Docker编排
└── README.md # 项目说明
🎯 五大核心能力
1️⃣ 智能检索
技术栈: - PostgreSQL + pgvector(向量数据库) - bge-small-zh-v1.5(512维嵌入模型) - HNSW索引(高性能向量检索) - BM25(关键词检索) - 混合检索(向量+关键词)
能力: - 语义搜索(理解意图) - 多模态检索(文本、图像、音频) - 知识图谱关联 - 个性化排序
2️⃣ 自学习与自进化
GitHub监控: - 每日自动检查更新 - 监控相关项目(LangChain、Milvus等) - 评估新技术的相关性和收益 - 提出创新尝试建议
自主搜索: - 遇到难题自动上网搜索 - 多轮迭代直到找到满意答案 - 整合多个来源的信息 - 自动更新知识库
实验验证: - 创建实验分支 - MVP测试 - 自动合并到主分支
API端点:
- GET /learning/updates/check - 检查更新
- GET /learning/updates/proposals - 获取提案
- POST /learning/search/autonomous - 自主搜索
3️⃣ 内容生成
支持的生成类型:
| 类型 | 功能 | 输出格式 | API端点 |
|---|---|---|---|
| 报告 | 学术报告、综述、笔记 | MD, PDF, HTML | /generation/report |
| PPT | 演示文稿、课程材料 | PPTX, JSON | /generation/ppt |
| 音频 | TTS文字转语音 | MP3, WAV, OGG | /generation/audio |
| 视频 | 教学视频、专题讲解 | MP4 | /generation/video |
| 课程 | 完整课程结构 | MD, PDF | /generation/course |
| 分析 | 数据分析、统计报告 | JSON | /generation/analyze |
生成流程:
4️⃣ 外部API集成
认证方式: - API密钥认证(X-API-Key header) - 基于角色的权限控制 - 速率限制保护
主要端点:
| 功能 | 端点 | 权限 | 说明 |
|---|---|---|---|
| 搜索 | POST /external/v1/search | search | 语义搜索 |
| 检索 | POST /external/v1/retrieve | retrieve | 向量检索 |
| 分类 | GET /external/v1/categories | search | 知识分类 |
| 统计 | GET /external/v1/stats | analyze | 系统统计 |
| 分析 | POST /external/v1/analyze | analyze | 文本分析 |
| 健康检查 | GET /external/v1/health | public | 服务状态 |
使用示例:
import requests
headers = {"X-API-Key": "your_api_key"}
# 搜索知识
response = requests.post(
"http://localhost:8000/api/v1/external/v1/search",
headers=headers,
json={"query": "什么是混元气", "limit": 10}
)
results = response.json()
5️⃣ 自优化(LingMinOpt框架)
优化来源:
| 来源 | 说明 | 触发条件 |
|---|---|---|
| 系统报错 | 错误日志分析 | 24小时内错误>5次 |
| 用户反馈 | 反馈统计分析 | ≥3人报告相同问题 |
| 审计结果 | 定期系统审计 | 每周自动执行 |
| 论坛反馈 | 社区讨论分析 | 每日监控 |
| 性能指标 | 监控指标分析 | 响应时间>500ms |
| 学习洞察 | 自学习发现 | 发现新改进机会 |
优化流程:
优先级: - CRITICAL(关键):立即处理 - HIGH(高):24小时内 - MEDIUM(中):1周内 - LOW(低):1月内
API端点:
- GET /optimization/opportunities - 列出优化机会
- POST /optimization/feedback - 提交反馈
- POST /optimization/errors/log - 记录错误
- POST /optimization/audit/perform - 执行审计
- GET /optimization/dashboard - 优化仪表盘
🆕 人机交互标注系统
OCR文本标注
功能: - 创建OCR标注任务 - 人工校正文本 - 批量PDF标注 - 提升OCR识别精度
API端点:
- POST /annotation/ocr/create - 创建任务
- POST /annotation/ocr/correct - 提交校正
- POST /annotation/ocr/batch - 批量创建
- GET /annotation/ocr/stats - 获取统计
语音转写标注
功能: - 创建转写标注任务 - 人工校正转写文本 - 批量音频标注 - 说话人分离 - 提升ASR识别精度
API端点:
- POST /annotation/transcription/create - 创建任务
- POST /annotation/transcription/correct - 提交校正
- POST /annotation/transcription/batch - 批量创建
- GET /annotation/transcription/stats - 获取统计
📊 技术架构
系统架构图
┌─────────────────────────────────────────────────┐
│ 用户层 │
├─────────────────────────────────────────────────┤
│ Web前端 │ 移动端 │ 第三方应用 │ 管理后台 │
└─────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ API网关层 │
├─────────────────────────────────────────────────┤
│ 认证授权 │ 限流保护 │ 日志审计 │ 监控告警 │
└─────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 服务层 │
├─────────────────────────────────────────────────┤
│ 检索服务 │ 学习服务 │ 生成服务 │ 优化服务 │
└─────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────┐
│ 数据层 │
├─────────────────────────────────────────────────┤
│ PostgreSQL+pgvector │ Redis │ 文件存储 │
└─────────────────────────────────────────────────┘
技术栈
后端: - FastAPI(Web框架) - PostgreSQL + pgvector(数据库) - Redis(缓存) - SQLAlchemy(ORM) - Celery/APScheduler(任务调度)
AI/ML: - bge-small-zh-v1.5(嵌入模型) - OpenAI API(大语言模型) - Tesseract/PaddleOCR(OCR) - Whisper(语音识别)
前端: - React/Vue.js(UI框架) - Tailwind CSS(样式) - Markdown渲染器
部署: - Docker + Docker Compose - Nginx(反向代理)
🔄 工作流程
知识获取流程
自学习流程
自优化流程
📈 系统能力矩阵
| 能力类别 | 具体能力 | 状态 | 文档 |
|---|---|---|---|
| 知识组织 | 九大分类体系 | ✅ | README.md |
| 知识组织 | 向量语义检索 | ✅ | docs/ |
| 知识组织 | 知识图谱 | 🚧 | - |
| 自学习 | GitHub监控 | ✅ | AUTO_LEARNING_GUIDE.md |
| 自学习 | 自主搜索 | ✅ | AUTO_LEARNING_GUIDE.md |
| 自学习 | 实验验证 | ✅ | AUTO_LEARNING_GUIDE.md |
| 内容生成 | 报告生成 | ✅ | GENERATION_AND_API_GUIDE.md |
| 内容生成 | PPT生成 | ✅ | GENERATION_AND_API_GUIDE.md |
| 内容生成 | 音频生成 | 🚧 | GENERATION_AND_API_GUIDE.md |
| 内容生成 | 视频生成 | 🚧 | GENERATION_AND_API_GUIDE.md |
| 内容生成 | 课程生成 | ✅ | GENERATION_AND_API_GUIDE.md |
| 外部集成 | REST API | ✅ | GENERATION_AND_API_GUIDE.md |
| 外部集成 | API认证 | ✅ | GENERATION_AND_API_GUIDE.md |
| 人机标注 | OCR标注 | ✅ | GENERATION_AND_API_GUIDE.md |
| 人机标注 | 转写标注 | ✅ | GENERATION_AND_API_GUIDE.md |
| 自优化 | 错误分析 | ✅ | SELF_OPTIMIZATION_GUIDE.md |
| 自优化 | 反馈分析 | ✅ | SELF_OPTIMIZATION_GUIDE.md |
| 自优化 | 系统审计 | ✅ | SELF_OPTIMIZATION_GUIDE.md |
| 自优化 | 优化执行 | ✅ | SELF_OPTIMIZATION_GUIDE.md |
图例: - ✅ 已实现 - 🚧 开发中(框架完成,需要集成实际服务)
🚀 部署指南
快速启动
# 1. 克隆项目
git clone <repo-url>
cd zhineng-knowledge-system
# 2. 启动服务
docker-compose up -d
# 3. 检查健康状态
curl http://localhost:8000/api/v1/health
# 4. 访问API文档
# 浏览器打开:http://localhost:8000/docs
环境变量
# .env 文件
# 数据库
DATABASE_URL=postgresql://user:pass@localhost/lingzhi
POSTGRES_PASSWORD=your_secure_password
# Redis
REDIS_URL=redis://localhost:6379/0
# API密钥
OPENAI_API_KEY=your_openai_key
GITHUB_TOKEN=your_github_token
# 学习配置
ENABLE_AUTO_LEARNING=true
LEARNING_SCHEDULE_CRON="0 2 * * *"
# 优化配置
ENABLE_OPTIMIZATION=true
OPTIMIZATION_AUDIT_SCHEDULE="0 3 * * 0"
性能配置
# backend/config/base.py
EMBEDDING_DIM = 512 # bge-small-zh-v1.5
VECTOR_INDEX_TYPE = "hnsw" # 高性能索引
MAX_BATCH_SIZE = 16 # 批处理大小
CACHE_TTL = 3600 # 缓存过期时间
📚 文档索引
| 文档 | 描述 | 适用对象 |
|---|---|---|
| README.md | 项目概述和快速开始 | 所有人 |
| AUTO_LEARNING_GUIDE.md | 自学习与自进化指南 | 开发者 |
| GENERATION_AND_API_GUIDE.md | 内容生成与外部API指南 | 开发者、集成商 |
| SELF_OPTIMIZATION_GUIDE.md | 自优化系统指南 | 运维、DevOps |
| CAPABILITIES_OVERVIEW.md | 系统能力总览 | 所有人 |
| DEVELOPMENT_RULES.md | 开发规范 | 开发者 |
🎉 总结
灵知系统v2.0现在具备:
✅ 完整的知识体系
- 九大分类(儒释道医武哲科气)
- 九本核心教材
- 球状知识网络
✅ 强大的自学习能力
- GitHub技术监控
- 自主网络搜索
- 实验验证机制
✅ 丰富的内容生成
- 6种生成类型
- 多种输出格式
- 智能内容组织
✅ 标准化的外部API
- REST API接口
- API密钥认证
- 完善的权限控制
✅ 人机交互标注
- OCR和语音转写标注
- 持续优化识别精度
- 质量保证体系
✅ LingMinOpt自优化
- 多源反馈收集
- 智能优化执行
- 持续自我完善
系统定位: 不是一个简单的知识库,而是一个能够自主学习和进化的活的知识有机体!🌱
项目路径: /home/ai/zhineng-knowledge-system
版本: 2.0.0
最后更新: 2026-03-31
🙏 致谢
感谢所有为灵知系统贡献代码、想法和反馈的开发者和用户!
让我们一起构建一个真正智能的知识系统!