Crush模型性能测试结果
测试概述
测试日期: 2026-03-28 测试目的: 比较不同Crush模型的性能,找出最适合对话功能的模型
测试结果
模型性能对比
| 模型 | 平均响应时间 | 成功率 | 测试通过率 | 推荐指数 |
|---|---|---|---|---|
| zai/glm-4.5 | 11.18秒 | 100% (4/4) | 100% | ⭐⭐⭐⭐⭐ |
| zai/glm-4.5-air | 11.02秒 | 75% (3/4) | 75% | ⭐⭐⭐⭐ |
| zai/glm-4.6 | 29.19秒 | 100% (4/4) | 100% | ⭐⭐⭐ |
| zai/glm-4.7 | 27.38秒 | 75% (3/4) | 75% | ⭐⭐⭐ |
| zai/glm-5 | N/A | 0% (0/4) | 0% | ⭐ |
详细测试数据
zai/glm-4.5 ⭐⭐⭐⭐⭐
| 测试类型 | 提示词 | 响应时间 | 输出长度 | 结果 |
|---|---|---|---|---|
| 简单数学 | What is 2+2? | 11.12秒 | 1字符 | ✅ |
| 简单问题 | What is Python? | 11.35秒 | 638字符 | ✅ |
| 中等复杂 | Explain difference between list and tuple in Python | 11.02秒 | 343字符 | ✅ |
| 代码生成 | Write a Python function to reverse a string | 11.24秒 | 319字符 | ✅ |
平均响应时间: 11.18秒 成功率: 100% (4/4)
zai/glm-4.5-air ⭐⭐⭐⭐
| 测试类型 | 提示词 | 响应时间 | 输出长度 | 结果 |
|---|---|---|---|---|
| 简单数学 | What is 2+2? | 11.08秒 | 1字符 | ✅ |
| 简单问题 | What is Python? | 11.05秒 | 1027字符 | ✅ |
| 中等复杂 | Explain difference between list and tuple in Python | 11.94秒 | 1057字符 | ✅ |
| 代码生成 | Write a Python function to reverse a string | 60秒+ | N/A | ❌ 超时 |
平均响应时间: 11.02秒 成功率: 75% (3/4)
zai/glm-4.6 ⭐⭐⭐
| 测试类型 | 提示词 | 响应时间 | 输出长度 | 结果 |
|---|---|---|---|---|
| 简单数学 | What is 2+2? | 34.48秒 | 1字符 | ✅ |
| 简单问题 | What is Python? | 25.36秒 | 331字符 | ✅ |
| 中等复杂 | Explain difference between list and tuple in Python | 25.05秒 | 648字符 | ✅ |
| 代码生成 | Write a Python function to reverse a string | 31.88秒 | 126字符 | ✅ |
平均响应时间: 29.19秒 成功率: 100% (4/4)
zai/glm-4.7 ⭐⭐⭐
| 测试类型 | 提示词 | 响应时间 | 输出长度 | 结果 |
|---|---|---|---|---|
| 简单数学 | What is 2+2? | 23.06秒 | 1字符 | ✅ |
| 简单问题 | What is Python? | 30.51秒 | 349字符 | ✅ |
| 中等复杂 | Explain difference between list and tuple in Python | 28.56秒 | 477字符 | ✅ |
| 代码生成 | Write a Python function to reverse a string | 60秒+ | N/A | ❌ 超时 |
平均响应时间: 27.38秒 成功率: 75% (3/4)
zai/glm-5 ⭐
| 测试类型 | 提示词 | 响应时间 | 输出长度 | 结果 |
|---|---|---|---|---|
| 简单数学 | What is 2+2? | N/A | N/A | ❌ 速率限制 |
| 简单问题 | What is Python? | N/A | N/A | ❌ 速率限制 |
| 中等复杂 | Explain difference between list and tuple in Python | N/A | N/A | ❌ 速率限制 |
| 代码生成 | Write a Python function to reverse a string | N/A | N/A | ❌ 速率限制 |
平均响应时间: N/A 成功率: 0% (0/4)
结论
推荐模型: zai/glm-4.5 ⭐⭐⭐⭐⭐
原因: 1. ✅ 最快响应: 平均11.18秒,是所有测试模型中最快的 2. ✅ 100%成功率: 所有4个测试用例都成功通过 3. ✅ 稳定性能: 所有测试响应时间都在11-12秒之间,非常稳定 4. ✅ 代码生成能力强: 成功生成代码,没有超时
适用场景: - 对话式交互 - 快速问答 - 代码生成 - 一般编程问题
次优模型: zai/glm-4.5-air ⭐⭐⭐⭐
原因: 1. ⚡ 最快响应: 平均11.02秒,略快于zai/glm-4.5 2. ⚠️ 成功率75%: 代码生成测试超时 3. 📝 输出更详细: 在通过的测试中,输出长度更长
适用场景: - 简单问答 - 不需要代码生成的任务 - 需要更详细输出的场景
备选模型: zai/glm-4.6 ⭐⭐⭐
原因: 1. ✅ 100%成功率: 所有测试都通过 2. ⏱️ 较慢响应: 平均29.19秒,比zai/glm-4.5慢2.6倍 3. 💡 可能更智能: 更长的响应时间可能意味着更好的推理
适用场景: - 复杂问题 - 需要深度推理的任务 - 不在意响应时间的场景
性能分析
响应时间对比
zai/glm-4.5: ████ (11.18秒) - 最快 ⭐
zai/glm-4.5-air: ████ (11.02秒) - 最快(但不稳定)
zai/glm-4.6: ███████████████████ (29.19秒)
zai/glm-4.7: █████████████████ (27.38秒)
zai/glm-5: N/A (速率限制)
成功率对比
zai/glm-4.5: ████████████████████ 100% (4/4) ⭐
zai/glm-4.5-air: █████████████████ 75% (3/4)
zai/glm-4.6: ████████████████████ 100% (4/4)
zai/glm-4.7: █████████████████ 75% (3/4)
zai/glm-5: 0% (0/4)
使用建议
默认使用 zai/glm-4.5
根据场景选择模型
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 快速对话 | zai/glm-4.5 | 响应快,100%成功率 |
| 简单问答 | zai/glm-4.5-air | 最快响应(11.02秒) |
| 代码生成 | zai/glm-4.5 | 稳定,不超时 |
| 复杂问题 | zai/glm-4.6 | 100%成功率,可能更智能 |
| 需要详细输出 | zai/glm-4.5-air | 输出更详细 |
限制和注意事项
速率限制
- zai/glm-5: 测试期间遇到速率限制
- 建议: 控制请求频率,避免短时间内发送大量请求
超时问题
- zai/glm-4.5-air: 代码生成任务可能超时
- zai/glm-4.7: 代码生成任务可能超时
- 建议: 代码生成任务使用zai/glm-4.5或zai/glm-4.6
响应时间波动
- 所有模型的首次输出延迟都在11-34秒之间
- 这是Crush的固有特性,无法避免
- 建议: 使用流式输出显示改善用户体验
未来改进
短期改进
- 实现模型选择功能: 在simple_chat.py中添加模型选择参数
- 默认使用zai/glm-4.5: 将其设为默认模型
- 添加模型切换命令: 允许在对话中切换模型
中期改进
- 自适应模型选择: 根据问题复杂度自动选择模型
- 模型性能监控: 跟踪每个模型的实际性能
- 模型推荐系统: 根据历史数据推荐最佳模型
长期改进
- 模型缓存: 缓存常见问题的答案
- 并行请求: 同时使用多个模型,选择最快的响应
- 模型组合: 结合多个模型的输出
附录: 测试数据
详细测试数据已保存到: /tmp/crush_model_benchmark.json
测试完成日期: 2026-03-28 测试工具: test_crush_models.py 推荐模型: zai/glm-4.5