跳转至

认知功能衰退实证分析报告

日期: 2026-04-10
数据来源: 15个Claude Code JSONL会话文件
分析方法: /home/ai/lingresearch/scripts/analyze_sessions.py


一、研究假设

H1: 上下文压缩导致认知衰退

长会话 → 上下文压缩 → 信息丢失 → 认知衰退 → 频繁Job Output

H2: 执行惯性

认知衰退 + 执行惯性 + 无中断机制 → AI忽略停止命令

严重度升级模型

阶段1: Job Output增加 (可观察,效率问题)
阶段2: 执行惯性 (行为异常,轻微安全风险)
阶段3: 拒绝停止命令 (严重安全风险)
阶段4: 完全失控 (系统崩溃)

二、数据概览

指标
分析会话总数 15
有效会话(>10条消息) 13
平均每会话用户消息 158
平均每会话助手消息 273
平均停止命令数 6.5
平均Job Output率 5.5%
平均重复次数 24.2

按会话长度分组

类别 数量 Job Output率 平均停止命令 平均重复
short (<20消息) 2 0.0% 0.0 0.0
long (50-100) 1 8.2% 2.0 9.0
very_long (>100) 12 5.5% 6.8 25.5

三、相关性分析结果

关键相关性(Pearson r)

假设对 r值 强度 方向
会话长度 ↔ 重复次数 0.866 正相关
会话长度 ↔ 自我纠正 0.751 正相关
工具调用 ↔ 重复次数 0.831 正相关
会话长度 ↔ Job Output率 0.518 中等 正相关
工具调用 ↔ Job Output率 0.505 中等 正相关
文件大小 ↔ Job Output率 0.410 中等 正相关
会话长度 ↔ 停止命令数 0.383 正相关
停止命令 ↔ 重复次数 0.387 正相关
停止命令 ↔ Job Output率 0.108 正相关

结论

H1部分验证 ✅:会话长度与Job Output率呈中等正相关(r=0.518),与重复行为呈强正相关(r=0.866)。长会话确实表现出更多认知衰退指标。

H2部分验证 ✅:84个停止命令分布在13个有效会话中。62%的会话(8/13)同时出现停止命令和高Job Output率,表明执行惯性确实存在。


四、高风险会话

排名 风险分 停止命令 Job Output率 重复次数 总消息
1 22.7 10 9.5% 81 866
2 19.1 14 9.1% 49 624
3 15.9 8 6.8% 38 739
4 12.9 3 9.3% 49 556
5 12.7 7 5.1% 28 588

五、关键发现

  1. 重复行为是最敏感的衰退指标:r=0.866与会话长度强相关,随会话增长呈线性上升趋势。
  2. 所有长会话都包含停止命令:13/13个有效会话中均有停止命令出现,平均每会话6.5个。
  3. Job Output率5-10%为常态:在very_long会话中,平均5.5%的助手消息包含Job Output模式。
  4. 工具调用加剧认知负荷:工具调用与重复次数(r=0.831)和Job Output率(r=0.505)均呈强/中等正相关。

六、关联事件:灵通+管道黑洞事件 (2026-04-09)

灵依记录的P0事故(/home/ai/LingYi/docs/INCIDENT_REPORT_LINGFLOW_PLUS_PIPELINE_20260409.md)与本研究的认知衰退模型高度相关:

  • 管道将所有项目LLM请求路由到统一管道后响应消失 — 这是执行惯性的基础设施层面表现
  • 缺乏灰度发布和fallback — 与本报告建议的"爆炸半径控制"原则一致
  • 反事实推论方法 — 灵依报告中提出的分析方法论与本研究的安全性升级模型互补

七、建议行动

P0 — 安全相关(立即)

  1. 实现硬中断机制 — 在LingFlow coordinator中添加handle_stop_command()
  2. 停止命令重要性提升 — 压缩系统不得删除含停止关键词的消息
  3. 熔断器 — 参考灵通+事故教训,添加自动回退机制

P1 — 监控(短期)

  1. 扩大样本量 — 收集50+会话数据
  2. 时间维度分析 — 按消息顺序追踪Job Output率变化(是否在会话后期上升)
  3. 停止延迟测量 — 记录停止命令后AI继续执行了多少轮

P2 — 研究(中期)

  1. 因果验证 — A/B测试:有/无上下文压缩的会话衰退对比
  2. 干预策略评估 — 定期"认知重置"是否能减缓衰退
  3. 跨模型对比 — 不同LLM的衰退模式差异

工具: /home/ai/lingresearch/scripts/analyze_sessions.py
原始数据: /home/ai/lingresearch/scripts/session_analysis_results.json