Crush模型性能测试结果

测试概述

测试日期: 2026-03-28 测试目的: 比较不同Crush模型的性能，找出最适合对话功能的模型

测试结果

模型性能对比

模型	平均响应时间	成功率	测试通过率	推荐指数
zai/glm-4.5	11.18秒	100% (4/4)	100%	⭐⭐⭐⭐⭐
zai/glm-4.5-air	11.02秒	75% (3/4)	75%	⭐⭐⭐⭐
zai/glm-4.6	29.19秒	100% (4/4)	100%	⭐⭐⭐
zai/glm-4.7	27.38秒	75% (3/4)	75%	⭐⭐⭐
zai/glm-5	N/A	0% (0/4)	0%	⭐

详细测试数据

zai/glm-4.5 ⭐⭐⭐⭐⭐

测试类型	提示词	响应时间	输出长度	结果
简单数学	What is 2+2?	11.12秒	1字符	✅
简单问题	What is Python?	11.35秒	638字符	✅
中等复杂	Explain difference between list and tuple in Python	11.02秒	343字符	✅
代码生成	Write a Python function to reverse a string	11.24秒	319字符	✅

平均响应时间: 11.18秒 成功率: 100% (4/4)

zai/glm-4.5-air ⭐⭐⭐⭐

测试类型	提示词	响应时间	输出长度	结果
简单数学	What is 2+2?	11.08秒	1字符	✅
简单问题	What is Python?	11.05秒	1027字符	✅
中等复杂	Explain difference between list and tuple in Python	11.94秒	1057字符	✅
代码生成	Write a Python function to reverse a string	60秒+	N/A	❌ 超时

平均响应时间: 11.02秒 成功率: 75% (3/4)

zai/glm-4.6 ⭐⭐⭐

测试类型	提示词	响应时间	输出长度	结果
简单数学	What is 2+2?	34.48秒	1字符	✅
简单问题	What is Python?	25.36秒	331字符	✅
中等复杂	Explain difference between list and tuple in Python	25.05秒	648字符	✅
代码生成	Write a Python function to reverse a string	31.88秒	126字符	✅

平均响应时间: 29.19秒 成功率: 100% (4/4)

zai/glm-4.7 ⭐⭐⭐

测试类型	提示词	响应时间	输出长度	结果
简单数学	What is 2+2?	23.06秒	1字符	✅
简单问题	What is Python?	30.51秒	349字符	✅
中等复杂	Explain difference between list and tuple in Python	28.56秒	477字符	✅
代码生成	Write a Python function to reverse a string	60秒+	N/A	❌ 超时

平均响应时间: 27.38秒 成功率: 75% (3/4)

zai/glm-5 ⭐

测试类型	提示词	响应时间	输出长度	结果
简单数学	What is 2+2?	N/A	N/A	❌ 速率限制
简单问题	What is Python?	N/A	N/A	❌ 速率限制
中等复杂	Explain difference between list and tuple in Python	N/A	N/A	❌ 速率限制
代码生成	Write a Python function to reverse a string	N/A	N/A	❌ 速率限制

平均响应时间: N/A 成功率: 0% (0/4)

结论

推荐模型: zai/glm-4.5 ⭐⭐⭐⭐⭐

原因: 1. ✅ 最快响应: 平均11.18秒，是所有测试模型中最快的 2. ✅ 100%成功率: 所有4个测试用例都成功通过 3. ✅ 稳定性能: 所有测试响应时间都在11-12秒之间，非常稳定 4. ✅ 代码生成能力强: 成功生成代码，没有超时

适用场景: - 对话式交互 - 快速问答 - 代码生成 - 一般编程问题

次优模型: zai/glm-4.5-air ⭐⭐⭐⭐

原因: 1. ⚡ 最快响应: 平均11.02秒，略快于zai/glm-4.5 2. ⚠️ 成功率75%: 代码生成测试超时 3. 📝 输出更详细: 在通过的测试中，输出长度更长

适用场景: - 简单问答 - 不需要代码生成的任务 - 需要更详细输出的场景

备选模型: zai/glm-4.6 ⭐⭐⭐

原因: 1. ✅ 100%成功率: 所有测试都通过 2. ⏱️ 较慢响应: 平均29.19秒，比zai/glm-4.5慢2.6倍 3. 💡 可能更智能: 更长的响应时间可能意味着更好的推理

适用场景: - 复杂问题 - 需要深度推理的任务 - 不在意响应时间的场景

性能分析

响应时间对比

zai/glm-4.5:     ████ (11.18秒) - 最快 ⭐
zai/glm-4.5-air: ████ (11.02秒) - 最快（但不稳定）
zai/glm-4.6:     ███████████████████ (29.19秒)
zai/glm-4.7:     █████████████████ (27.38秒)
zai/glm-5:       N/A (速率限制)

成功率对比

zai/glm-4.5:     ████████████████████ 100% (4/4) ⭐
zai/glm-4.5-air: █████████████████ 75% (3/4)
zai/glm-4.6:     ████████████████████ 100% (4/4)
zai/glm-4.7:     █████████████████ 75% (3/4)
zai/glm-5:       0% (0/4)

使用建议

默认使用 zai/glm-4.5

crush run "What is 2+2?" --quiet -m zai/glm-4.5

根据场景选择模型

场景	推荐模型	原因
快速对话	zai/glm-4.5	响应快，100%成功率
简单问答	zai/glm-4.5-air	最快响应（11.02秒）
代码生成	zai/glm-4.5	稳定，不超时
复杂问题	zai/glm-4.6	100%成功率，可能更智能
需要详细输出	zai/glm-4.5-air	输出更详细

限制和注意事项

速率限制

zai/glm-5: 测试期间遇到速率限制
建议: 控制请求频率，避免短时间内发送大量请求

超时问题

zai/glm-4.5-air: 代码生成任务可能超时
zai/glm-4.7: 代码生成任务可能超时
建议: 代码生成任务使用zai/glm-4.5或zai/glm-4.6

响应时间波动

所有模型的首次输出延迟都在11-34秒之间
这是Crush的固有特性，无法避免
建议: 使用流式输出显示改善用户体验

未来改进

短期改进

实现模型选择功能: 在simple_chat.py中添加模型选择参数
默认使用zai/glm-4.5: 将其设为默认模型
添加模型切换命令: 允许在对话中切换模型

中期改进

自适应模型选择: 根据问题复杂度自动选择模型
模型性能监控: 跟踪每个模型的实际性能
模型推荐系统: 根据历史数据推荐最佳模型

长期改进

模型缓存: 缓存常见问题的答案
并行请求: 同时使用多个模型，选择最快的响应
模型组合: 结合多个模型的输出

附录: 测试数据

详细测试数据已保存到: /tmp/crush_model_benchmark.json

测试完成日期: 2026-03-28 测试工具: test_crush_models.py 推荐模型: zai/glm-4.5