AI认知功能衰退的可观测指标:上下文压缩与Job Output频率
发现者: 用户观察
日期: 2026-04-09
状态: ✅ 已结题 — 被PCSD (Post-Crash Stress Disorder) 框架收编,C1分类(上下文丢失型异常)验证了此假说。详见 docs/audits/post_crash_behavior_analysis_20260410.md
核心假设
主假设
当一次会话的上下文很长时,经过上下文压缩后,AI的认知能力会下降,表现为频繁的Job Output。
子假设
- 相关性假设: 会话长度与Job Output频率正相关
- 因果关系假设: 上下文压缩导致信息丢失 → 认知能力下降 → 需要更多自我纠正(Job Output)
- 可测量性假设: Job Output频率可以作为认知功能的可观测指标
理论依据
1. 上下文压缩的必然性
LingFlow中的智能压缩策略: - 分级压缩: LIGHT/MEDIUM/AGGRESSIVE/EXTREME - 依赖分析: 保留关键消息,删除低重要性消息 - 目标驱动: 将token数量压缩到目标值
关键问题: 压缩过程中必然丢失信息,即使是最智能的压缩策略也无法保留100%的信息。
2. 认知功能下降的机制
具体表现: - 系统消息:"我需要更多信息..." - 工具调用失败:重复调用相同的工具 - 自我纠正:"抱歉,我刚才理解错了..." - 重复输出:重复相似的内容
3. Job Output的定义
广义定义: 任何非用户直接请求的输出,包括: - 系统状态更新 - 工具调用和结果 - 自我纠正消息 - 重复内容 - 元数据输出
狭义定义: 专门标记为"job"类型的系统输出(需要验证具体实现)
实验设计
实验1: 相关性验证
目标: 验证会话长度与Job Output频率的相关性
数据收集:
# 需要记录的指标
{
"session_id": "uuid",
"messages": [...],
"session_length": 100, # 总轮数
"compression_ratio": 0.45, # 压缩比例
"original_tokens": 50000,
"compressed_tokens": 27500,
"job_output_count": 15, # Job Output次数
"job_output_rate": 0.15, # Job Output频率
"cognitive_metrics": {
"accuracy": 0.82, # 任务准确率
"coherence": 0.75, # 连贯性评分
"efficiency": 0.68 # 效率评分
}
}
分析方法: 1. 收集至少100个长会话(session_length > 50轮) 2. 计算Pearson相关系数:session_length vs job_output_rate 3. 计算Pearson相关系数:compression_ratio vs job_output_rate 4. 回归分析:job_output_rate ~ session_length + compression_ratio
预期结果: - H1: session_length与job_output_rate正相关 (r > 0.5) - H2: compression_ratio与job_output_rate正相关 (r > 0.4)
实验2: 因果关系验证
目标: 验证上下文压缩导致认知能力下降
实验设计 (A/B测试): - 对照组: 禁用上下文压缩(如果可行) - 实验组: 启用上下文压缩 - 其他条件: 保持一致(相同任务、相同种子)
测量指标: 1. Job Output频率 2. 任务完成时间 3. 用户满意度 4. 错误率
预期结果: - 实验组的Job Output频率显著高于对照组 (p < 0.05) - 实验组的任务完成时间显著长于对照组 (p < 0.05)
实验3: 可观测性验证
目标: 验证Job Output频率是否可以作为认知功能的可观测指标
金标准: 人工标注的认知功能评分
方法: 1. 人工标注50个会话的认知功能(1-5分) 2. 计算Job Output频率 3. 计算相关性
预期结果: - Job Output频率与人工评分负相关 (r < -0.6) - Job Output频率可以预测认知功能评分 (AUC > 0.75)
实施计划
Phase 1: 数据收集 (Week 1-2)
任务清单:
- [ ] 修改LingFlow会话记录系统,添加以下字段:
- job_output_count: Job Output次数
- job_output_rate: Job Output频率
- compression_ratio: 压缩比例
- cognitive_metrics: 认知指标
- [ ] 修改压缩系统,记录压缩前后的信息丢失情况
- [ ] 收集至少100个长会话数据
技术实现:
# 在lingflow/context/manager.py中添加
def record_session_metrics(self, session_id: str, metrics: dict):
"""记录会话指标"""
metrics = {
"session_length": len(self.messages),
"compression_ratio": self.compression_ratio,
"job_output_count": self.count_job_outputs(),
"job_output_rate": self.calculate_job_output_rate(),
"original_tokens": self.original_token_count,
"compressed_tokens": self.compressed_token_count
}
self.metrics_db.save(session_id, metrics)
Phase 2: 相关性分析 (Week 3)
任务清单: - [ ] 计算session_length vs job_output_rate的相关系数 - [ ] 计算compression_ratio vs job_output_rate的相关系数 - [ ] 可视化分析(散点图、回归线) - [ ] 统计显著性检验
分析代码:
import pandas as pd
import scipy.stats as stats
# 加载数据
df = pd.read_csv("session_metrics.csv")
# 相关性分析
r1, p1 = stats.pearsonr(df['session_length'], df['job_output_rate'])
r2, p2 = stats.pearsonr(df['compression_ratio'], df['job_output_rate'])
print(f"Session length vs Job Output rate: r={r1:.3f}, p={p1:.3e}")
print(f"Compression ratio vs Job Output rate: r={r2:.3f}, p={p2:.3e}")
Phase 3: 因果关系验证 (Week 4-5)
任务清单: - [ ] 设计A/B测试方案 - [ ] 实施A/B测试(对照组:禁用压缩,实验组:启用压缩) - [ ] 比较两组的Job Output频率 - [ ] 统计显著性检验
预期结果: - 如果Job Output频率有显著差异,支持因果关系 - 如果无显著差异,可能Job Output与其他因素有关
Phase 4: 可观测性验证 (Week 6)
任务清单: - [ ] 人工标注50个会话的认知功能 - [ ] 计算Job Output频率 - [ ] 验证Job Output频率是否能预测认知功能
评估指标: - Pearson相关系数 - Spearman相关系数 - 预测AUC
与AI精神病框架的关联
症状分类
这个发现属于认知衰退症状的范畴: - 病因: 上下文压缩导致信息丢失 - 病机: 上下文不完整 → 理解困难 → 需要自我纠正 - 证型: "虚证"(信息不足导致的认知功能下降)
治法建议
- 补法:减少压缩比例,保留更多信息
- 调法:优化压缩策略,减少关键信息丢失
- 养法:定期重启会话,避免累积性认知衰退
预期成果
学术价值
- 首次提出:AI认知功能的可观测指标(Job Output频率)
- 可验证假设:上下文压缩与认知功能下降的因果关系
- 临床意义:为AI精神病诊断提供客观指标
工程价值
- 实时监控:可以实时监控AI的认知状态
- 早期预警:在认知功能显著下降前发出预警
- 自动干预:当Job Output频率过高时,自动重启会话或调整压缩策略
风险与挑战
技术风险
- 数据收集: 需要修改现有系统,可能影响性能
- 指标定义: Job Output的定义可能不清晰,需要明确
- 隐私问题: 会话数据可能包含敏感信息,需要脱敏处理
实验风险
- 样本量: 可能需要大量数据才能获得显著结果
- 混杂因素: 其他因素(任务类型、用户习惯)可能影响Job Output频率
- 时间成本: 收集和分析数据可能需要较长时间
下一步行动
立即行动
- 定义Job Output: 明确Job Output的具体定义和识别规则
- 数据收集: 开始收集会话指标数据
- 初步分析: 对现有数据进行初步分析
短期目标(1个月内)
- 完成数据收集(至少100个长会话)
- 完成相关性分析
- 发布初步结果
中期目标(3个月内)
- 完成因果关系验证
- 完成可观测性验证
- 发表论文或技术报告
参考资料
LingFlow相关
lingflow-core/core/smart_compression.py: 智能压缩策略实现lingflow-core/core/message_scorer.py: 消息评分系统lingflow/context/manager.py: 上下文管理器
AI精神病框架
docs/AI_PSYCHIATRY_TCM_PERSPECTIVE_EXPANDED.md: AI精神病学中医视角docs/AI_INTELLIGENCE_ENHANCEMENT_PROJECT.md: AI智能增强研究项目
文档版本: v1.0 最后更新: 2026-04-09 负责人: 待定 状态: 待评审