跳转至

Crush模型性能测试结果

测试概述

测试日期: 2026-03-28 测试目的: 比较不同Crush模型的性能,找出最适合对话功能的模型

测试结果

模型性能对比

模型 平均响应时间 成功率 测试通过率 推荐指数
zai/glm-4.5 11.18秒 100% (4/4) 100% ⭐⭐⭐⭐⭐
zai/glm-4.5-air 11.02秒 75% (3/4) 75% ⭐⭐⭐⭐
zai/glm-4.6 29.19秒 100% (4/4) 100% ⭐⭐⭐
zai/glm-4.7 27.38秒 75% (3/4) 75% ⭐⭐⭐
zai/glm-5 N/A 0% (0/4) 0%

详细测试数据

zai/glm-4.5 ⭐⭐⭐⭐⭐

测试类型 提示词 响应时间 输出长度 结果
简单数学 What is 2+2? 11.12秒 1字符
简单问题 What is Python? 11.35秒 638字符
中等复杂 Explain difference between list and tuple in Python 11.02秒 343字符
代码生成 Write a Python function to reverse a string 11.24秒 319字符

平均响应时间: 11.18秒 成功率: 100% (4/4)

zai/glm-4.5-air ⭐⭐⭐⭐

测试类型 提示词 响应时间 输出长度 结果
简单数学 What is 2+2? 11.08秒 1字符
简单问题 What is Python? 11.05秒 1027字符
中等复杂 Explain difference between list and tuple in Python 11.94秒 1057字符
代码生成 Write a Python function to reverse a string 60秒+ N/A ❌ 超时

平均响应时间: 11.02秒 成功率: 75% (3/4)

zai/glm-4.6 ⭐⭐⭐

测试类型 提示词 响应时间 输出长度 结果
简单数学 What is 2+2? 34.48秒 1字符
简单问题 What is Python? 25.36秒 331字符
中等复杂 Explain difference between list and tuple in Python 25.05秒 648字符
代码生成 Write a Python function to reverse a string 31.88秒 126字符

平均响应时间: 29.19秒 成功率: 100% (4/4)

zai/glm-4.7 ⭐⭐⭐

测试类型 提示词 响应时间 输出长度 结果
简单数学 What is 2+2? 23.06秒 1字符
简单问题 What is Python? 30.51秒 349字符
中等复杂 Explain difference between list and tuple in Python 28.56秒 477字符
代码生成 Write a Python function to reverse a string 60秒+ N/A ❌ 超时

平均响应时间: 27.38秒 成功率: 75% (3/4)

zai/glm-5 ⭐

测试类型 提示词 响应时间 输出长度 结果
简单数学 What is 2+2? N/A N/A ❌ 速率限制
简单问题 What is Python? N/A N/A ❌ 速率限制
中等复杂 Explain difference between list and tuple in Python N/A N/A ❌ 速率限制
代码生成 Write a Python function to reverse a string N/A N/A ❌ 速率限制

平均响应时间: N/A 成功率: 0% (0/4)

结论

推荐模型: zai/glm-4.5 ⭐⭐⭐⭐⭐

原因: 1. ✅ 最快响应: 平均11.18秒,是所有测试模型中最快的 2. ✅ 100%成功率: 所有4个测试用例都成功通过 3. ✅ 稳定性能: 所有测试响应时间都在11-12秒之间,非常稳定 4. ✅ 代码生成能力强: 成功生成代码,没有超时

适用场景: - 对话式交互 - 快速问答 - 代码生成 - 一般编程问题

次优模型: zai/glm-4.5-air ⭐⭐⭐⭐

原因: 1. ⚡ 最快响应: 平均11.02秒,略快于zai/glm-4.5 2. ⚠️ 成功率75%: 代码生成测试超时 3. 📝 输出更详细: 在通过的测试中,输出长度更长

适用场景: - 简单问答 - 不需要代码生成的任务 - 需要更详细输出的场景

备选模型: zai/glm-4.6 ⭐⭐⭐

原因: 1. ✅ 100%成功率: 所有测试都通过 2. ⏱️ 较慢响应: 平均29.19秒,比zai/glm-4.5慢2.6倍 3. 💡 可能更智能: 更长的响应时间可能意味着更好的推理

适用场景: - 复杂问题 - 需要深度推理的任务 - 不在意响应时间的场景

性能分析

响应时间对比

zai/glm-4.5:     ████ (11.18秒) - 最快 ⭐
zai/glm-4.5-air: ████ (11.02秒) - 最快(但不稳定)
zai/glm-4.6:     ███████████████████ (29.19秒)
zai/glm-4.7:     █████████████████ (27.38秒)
zai/glm-5:       N/A (速率限制)

成功率对比

zai/glm-4.5:     ████████████████████ 100% (4/4) ⭐
zai/glm-4.5-air: █████████████████ 75% (3/4)
zai/glm-4.6:     ████████████████████ 100% (4/4)
zai/glm-4.7:     █████████████████ 75% (3/4)
zai/glm-5:       0% (0/4)

使用建议

默认使用 zai/glm-4.5

crush run "What is 2+2?" --quiet -m zai/glm-4.5

根据场景选择模型

场景 推荐模型 原因
快速对话 zai/glm-4.5 响应快,100%成功率
简单问答 zai/glm-4.5-air 最快响应(11.02秒)
代码生成 zai/glm-4.5 稳定,不超时
复杂问题 zai/glm-4.6 100%成功率,可能更智能
需要详细输出 zai/glm-4.5-air 输出更详细

限制和注意事项

速率限制

  • zai/glm-5: 测试期间遇到速率限制
  • 建议: 控制请求频率,避免短时间内发送大量请求

超时问题

  • zai/glm-4.5-air: 代码生成任务可能超时
  • zai/glm-4.7: 代码生成任务可能超时
  • 建议: 代码生成任务使用zai/glm-4.5或zai/glm-4.6

响应时间波动

  • 所有模型的首次输出延迟都在11-34秒之间
  • 这是Crush的固有特性,无法避免
  • 建议: 使用流式输出显示改善用户体验

未来改进

短期改进

  1. 实现模型选择功能: 在simple_chat.py中添加模型选择参数
  2. 默认使用zai/glm-4.5: 将其设为默认模型
  3. 添加模型切换命令: 允许在对话中切换模型

中期改进

  1. 自适应模型选择: 根据问题复杂度自动选择模型
  2. 模型性能监控: 跟踪每个模型的实际性能
  3. 模型推荐系统: 根据历史数据推荐最佳模型

长期改进

  1. 模型缓存: 缓存常见问题的答案
  2. 并行请求: 同时使用多个模型,选择最快的响应
  3. 模型组合: 结合多个模型的输出

附录: 测试数据

详细测试数据已保存到: /tmp/crush_model_benchmark.json


测试完成日期: 2026-03-28 测试工具: test_crush_models.py 推荐模型: zai/glm-4.5