灵知系统 - AI模型与功能完整清单
更新日期: 2026-04-02
🤖 模型架构概览
┌─────────────────────────────────────────────────────────────┐
│ 灵知系统 AI 架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 本地嵌入模型 │ │ 线上LLM │ │ 推理引擎 │ │
│ │ │ │ (14个) │ │ │ │
│ │ BGE-M3 │ │ │ │ CoT/ReAct │ │
│ │ 512维向量 │ │ 智能调度池 │ │ GraphRAG │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │ │ │
│ └──────────────────┴────────────────────┘ │
│ │ │
│ ┌────────▼─────────┐ │
│ │ FreeTokenPool │ │
│ │ (智能Token池) │ │
│ └──────────────────┘ │
└─────────────────────────────────────────────────────────────┘
💻 本地模型
嵌入模型 (Embedding Model)
| 模型 | 维度 | 框架 | 用途 |
|---|---|---|---|
| BGE-M3 | 1024维 | SentenceTransformer | 多语言文本嵌入 |
| BGE-small-zh-v1.5 | 512维 | FlagEmbedding | 中文语义搜索 |
| FlagEmbedding | 768维 | FlagEmbedding | 通用嵌入 |
服务配置:
功能: - ✅ 文本向量化 - ✅ 批量嵌入 - ✅ 语义相似度计算 - ✅ 向量搜索支持
☁️ 线上模型 (API调用)
模型调度策略
已配置模型列表
🥇 主力模型 (优先级 0-1)
| 模型 | 状态 | 额度 | 优势 | 用途 |
|---|---|---|---|---|
| GLM Coding Plan Pro | ⚠️ 未配置 | 100M/月 | 代码生成、复杂推理 | 开发主力 |
| GLM-4 | ✅ 已配置 | 100万/月 | 通用对话、长文本 | 日常对话 |
| DeepSeek-V3 | ✅ 已配置 | 500万/30天 | 数学、代码推理 | 复杂推理 |
🥈 补充模型 (优先级 2-5)
| 模型 | 状态 | 额度 | 优势 | 用途 |
|---|---|---|---|---|
| 千帆Qwen | ✅ | 100万/月 | 中文理解 | 中文任务 |
| 通义千问 | ✅ | 100万/月 | 长文本(128K) | 长文档 |
| 混元 | ✅ | 100万/30天 | 多模态 | 图文理解 |
| 豆包 | ✅ | 200万/30天 | 高并发 | 实时响应 |
| Kimi | ✅ | 300万/30天 | 超长文本 | 大文档 |
| MiniMax | ✅ | 100万/60天 | 对话 | 聊天 |
| 讯飞星火 | ✅ | 50万/月 | 中文语音 | 语音 |
📉 额外配置
| 模型 | 状态 | 额度 | 用途 |
|---|---|---|---|
| GLM-4.7-CC | ⚠️ 未配置 | - | 高级推理 |
| 千帆百炼 | ✅ | - | 百度生态 |
| 通义CLI | ✅ | - | 命令行工具 |
| 豆包NAS | ✅ | - | 存储服务 |
🧠 推理能力
1. CoT (Chain of Thought) - 链式思考
文件: backend/services/reasoning/cot.py
功能: - ✅ 多步骤推理 - ✅ 思维链可视化 - ✅ 中间步骤验证
使用场景:
示例:
from backend.services.reasoning.cot import ChainOfThought
reasoning = ChainOfThought()
result = await reasoning.reason(
query="为什么智能气功强调形神合一?",
domain="qigong"
)
2. ReAct - 推理+行动
文件: backend/services/reasoning/react.py
功能: - ✅ 推理循环 - ✅ 工具调用 - ✅ 观察-思考-行动循环
使用场景:
示例:
from backend.services.reasoning.react import ReActAgent
agent = ReActAgent()
result = await agent.solve(
task="查找黄帝内经中关于气的论述",
tools=["search_books", "retrieve_content"]
)
3. GraphRAG - 图推理检索增强生成
文件: backend/services/reasoning/graph_rag.py
功能: - ✅ 知识图谱构建 - ✅ 图遍历推理 - ✅ 多跳推理
使用场景:
示例:
from backend.services.reasoning.graph_rag import GraphRAG
graph_rag = GraphRAG()
result = await graph_rag.query(
question="庄子与老子思想的关系是什么?",
knowledge_graph=True
)
📝 生成能力
1. 文本生成
文件: backend/services/generation/generators.py
功能: - ✅ 文章生成 - ✅ 内容创作 - ✅ 风格迁移 - ✅ 摘要生成
支持类型:
2. 代码生成
优先使用: GLM Coding Plan Pro
功能: - ✅ 函数/类生成 - ✅ 代码注释 - ✅ 代码重构 - ✅ Bug修复 - ✅ 单元测试
优化: - 智能缓存 (30-50%节省) - 批处理 (50-70%减少调用) - 自适应限流
3. PPT生成
文件: backend/services/generation/ppt_generator.py
功能: - ✅ 大纲生成 - ✅ 幻灯片内容 - ✅ 演讲者备注 - ✅ 视觉建议
输出格式:
4. 报告生成
文件: backend/services/generation/report_generator.py
功能: - ✅ 数据分析报告 - ✅ 研究报告 - ✅ 进展报告 - ✅ 统计图表
报告类型:
5. 课程生成
文件: backend/services/generation/course_generator.py
功能: - ✅ 教学大纲 - ✅ 课程内容 - ✅ 练习题 - ✅ 学习计划
适用场景:
6. 音频生成
文件: backend/services/generation/audio_generator.py.backup
功能: - ✅ TTS语音合成 - ✅ 音频内容生成 - ✅ 多语言支持
支持格式:
7. 数据分析
文件: backend/services/generation/data_analyzer.py
功能: - ✅ 数据洞察 - ✅ 趋势分析 - ✅ 可视化建议 - ✅ 报告生成
🔍 检索能力
1. 向量检索 (Vector Retrieval)
文件: backend/services/retrieval/vector.py
功能: - ✅ 语义搜索 - ✅ 相似度计算 - ✅ Top-K召回
技术:
使用场景:
2. BM25检索
文件: backend/services/retrieval/bm25.py
功能: - ✅ 关键词匹配 - ✅ TF-IDF权重 - ✅ 相关性评分
使用场景:
3. 混合检索 (Hybrid Retrieval)
文件: backend/services/hybrid_retrieval.py
功能: - ✅ 向量 + BM25双路召回 - ✅ RRF (Reciprocal Rank Fusion) 融合 - ✅ 动态权重调整
融合策略:
使用场景:
4. 多维度搜索
文件: backend/services/book_search.py
功能: - ✅ 标题搜索 - ✅ 作者搜索 - ✅ 分类筛选 - ✅ 朝代筛选 - ✅ 全文内容搜索
搜索维度:
🔎 分析能力
1. OCR识别
功能: - ✅ 图片文字提取 - ✅ PDF文字提取 - ✅ 手写识别 - ✅ 表格识别
支持格式:
2. 语音转写
功能: - ✅ 音频转文本 - ✅ 说话人识别 - ✅ 时间戳生成 - ✅ 标点符号添加
支持格式:
3. 数据标注
文件: backend/services/annotation/
功能: - ✅ 文本校正 - ✅ 实体标注 - ✅ 关系抽取 - ✅ 分类标注
4. 情感分析
功能: - ✅ 情感分类 - ✅ 观点提取 - ✅ 情感强度 - ✅ 情感趋势
5. 实体识别
功能: - ✅ 人名识别 - ✅ 地名识别 - ✅ 机构名识别 - ✅ 术语识别
🛠️ 优化功能
1. 智能缓存
文件: backend/services/evolution/smart_cache.py
效果: 节省30-50%重复请求
功能: - ✅ 内存 + 磁盘双重缓存 - ✅ 48小时TTL - ✅ 自动过期清理 - ✅ MD5哈希键
2. 批处理
文件: backend/services/evolution/batch_processor.py
效果: 减少50-70% API调用
功能: - ✅ 自动分批处理 - ✅ 智能合并请求 - ✅ 批次间延迟 - ✅ 并发处理
3. 自适应限流
文件: backend/services/evolution/rate_limiter.py
效果: 避免90%频率限制错误
功能: - ✅ 多时间窗口监控 - ✅ 自适应调整限制 - ✅ 自动计算等待时间 - ✅ 详细统计信息
📊 监控功能
Token监控
文件: scripts/token_monitor_dashboard.py
功能: - ✅ 实时Token使用监控 - ✅ Provider性能对比 - ✅ 成功率统计 - ✅ 延迟监控 - ✅ 错误追踪
使用方式:
# 查看仪表板
python scripts/token_monitor_dashboard.py
# 实时监控
python scripts/token_monitor_dashboard.py --realtime
# Provider对比
python scripts/token_monitor_dashboard.py --compare
# 导出报告
python scripts/token_monitor_dashboard.py --export
🎯 使用示例
基础文本生成
from backend.services.ai_service import generate_text
result = await generate_text(
prompt="解释什么是气功中的意守丹田",
complexity="medium",
max_tokens=1000
)
# 返回
{
"success": True,
"content": "意守丹田是...",
"provider": "glm_coding",
"tokens": 856,
"latency_ms": 1234
}
复杂推理任务
from backend.services.ai_service import generate_text
from backend.services.evolution.TaskType import TaskType
result = await generate_text(
prompt="比较庄子与老子思想的异同",
complexity="high",
task_type=TaskType.REASONING
)
带缓存的调用
from backend.services.evolution.optimized_ai_client import optimized_chat
# 自动应用缓存、限流等优化
response = await optimized_chat("什么是智能气功?")
批量处理
from backend.services.evolution.optimized_ai_client import batch_chat
prompts = ["问题1", "问题2", "问题3"]
results = await batch_chat(
prompts,
batch_size=3,
delay_between_batches=5
)
📋 模型选择指南
按任务类型选择
| 任务类型 | 推荐模型 | 理由 |
|---|---|---|
| 代码生成 | GLM Coding Plan Pro | 专业代码模型 |
| 复杂推理 | DeepSeek-V3 | 推理能力强 |
| 长文本处理 | 通义千问、Kimi | 支持128K+ |
| 中文对话 | GLM-4、千帆Qwen | 中文优化 |
| 实时响应 | 豆包 | 高并发能力 |
| 日常问答 | GLM-4 | 平衡性能成本 |
按复杂度选择
| 复杂度 | 推荐模型 | 额度策略 |
|---|---|---|
| 简单 | GLM-4、千帆 | 优先使用便宜的 |
| 中等 | GLM-4、DeepSeek | 负载均衡 |
| 复杂 | DeepSeek、GLM Coding Plan | 优先使用推理强的 |
💡 最佳实践
1. Token优化
# ✅ 好的做法:使用缓存
response = await optimized_chat("常见问题")
# ❌ 不好的做法:重复调用
for _ in range(10):
await api_call("相同问题")
2. 批量操作
# ✅ 好的做法:批量处理
results = await batch_chat(prompts, batch_size=5)
# ❌ 不好的做法:逐个调用
for prompt in prompts:
await api_call(prompt)
3. 错误处理
# ✅ 好的做法:使用fallback
result = await generate_with_fallback(
prompt,
max_retries=3
)
# ❌ 不好的做法:单次调用
result = await api_call(prompt) # 可能失败
📈 性能指标
响应时间
| 操作 | 平均时间 |
|---|---|
| 文本生成 | 1-3秒 |
| 代码生成 | 2-5秒 |
| 向量检索 | 50-200ms |
| BM25检索 | 20-100ms |
| 混合检索 | 100-300ms |
Token消耗
| 操作 | 平均Token |
|---|---|
| 简单问答 | 500-1000 |
| 复杂推理 | 2000-5000 |
| 代码生成 | 1000-3000 |
| 长文档处理 | 5000-10000 |
成本优化
| 优化项 | 节省比例 |
|---|---|
| 智能缓存 | 30-50% |
| 批处理 | 50-70% |
| 自适应限流 | 减少90%错误 |
🎉 总结
本地模型: - BGE-M3 嵌入模型 (1024维) - 语义搜索支持
线上模型: - 14个API提供商 - 1810万+ tokens额度 - 智能调度池
核心能力: - 推理: CoT + ReAct + GraphRAG - 生成: 文本/代码/PPT/报告/课程/音频 - 检索: 向量 + BM25 + 混合 - 分析: OCR + 语音 + 标注
优化功能: - 智能缓存 (30-50%节省) - 批处理 (50-70%减少调用) - 自适应限流 (90%错误避免)
众智混元,万法灵通 ⚡🚀