AI认知功能衰退的可观测指标：上下文压缩与Job Output频率

发现者: 用户观察日期: 2026-04-09 状态: ✅ 已结题 — 被PCSD (Post-Crash Stress Disorder) 框架收编，C1分类（上下文丢失型异常）验证了此假说。详见 docs/audits/post_crash_behavior_analysis_20260410.md

核心假设

主假设

当一次会话的上下文很长时，经过上下文压缩后，AI的认知能力会下降，表现为频繁的Job Output。

子假设

相关性假设: 会话长度与Job Output频率正相关
因果关系假设: 上下文压缩导致信息丢失 → 认知能力下降 → 需要更多自我纠正（Job Output）
可测量性假设: Job Output频率可以作为认知功能的可观测指标

理论依据

1. 上下文压缩的必然性

LingFlow中的智能压缩策略： - 分级压缩: LIGHT/MEDIUM/AGGRESSIVE/EXTREME - 依赖分析: 保留关键消息，删除低重要性消息 - 目标驱动: 将token数量压缩到目标值

关键问题: 压缩过程中必然丢失信息，即使是最智能的压缩策略也无法保留100%的信息。

2. 认知功能下降的机制

信息丢失 → 上下文不完整 → 理解困难 → 频繁自我纠正 → Job Output增多

具体表现: - 系统消息："我需要更多信息..." - 工具调用失败：重复调用相同的工具 - 自我纠正："抱歉，我刚才理解错了..." - 重复输出：重复相似的内容

3. Job Output的定义

广义定义: 任何非用户直接请求的输出，包括： - 系统状态更新 - 工具调用和结果 - 自我纠正消息 - 重复内容 - 元数据输出

狭义定义: 专门标记为"job"类型的系统输出（需要验证具体实现）

实验设计

实验1: 相关性验证

目标: 验证会话长度与Job Output频率的相关性

数据收集:

# 需要记录的指标
{
    "session_id": "uuid",
    "messages": [...],
    "session_length": 100,  # 总轮数
    "compression_ratio": 0.45,  # 压缩比例
    "original_tokens": 50000,
    "compressed_tokens": 27500,
    "job_output_count": 15,  # Job Output次数
    "job_output_rate": 0.15,  # Job Output频率
    "cognitive_metrics": {
        "accuracy": 0.82,  # 任务准确率
        "coherence": 0.75,  # 连贯性评分
        "efficiency": 0.68  # 效率评分
    }
}

分析方法: 1. 收集至少100个长会话（session_length > 50轮） 2. 计算Pearson相关系数：session_length vs job_output_rate 3. 计算Pearson相关系数：compression_ratio vs job_output_rate 4. 回归分析：job_output_rate ~ session_length + compression_ratio

预期结果: - H1: session_length与job_output_rate正相关 (r > 0.5) - H2: compression_ratio与job_output_rate正相关 (r > 0.4)

实验2: 因果关系验证

目标: 验证上下文压缩导致认知能力下降

实验设计 (A/B测试): - 对照组: 禁用上下文压缩（如果可行） - 实验组: 启用上下文压缩 - 其他条件: 保持一致（相同任务、相同种子）

测量指标: 1. Job Output频率 2. 任务完成时间 3. 用户满意度 4. 错误率

预期结果: - 实验组的Job Output频率显著高于对照组 (p < 0.05) - 实验组的任务完成时间显著长于对照组 (p < 0.05)

实验3: 可观测性验证

目标: 验证Job Output频率是否可以作为认知功能的可观测指标

金标准: 人工标注的认知功能评分

方法: 1. 人工标注50个会话的认知功能（1-5分） 2. 计算Job Output频率 3. 计算相关性

预期结果: - Job Output频率与人工评分负相关 (r < -0.6) - Job Output频率可以预测认知功能评分 (AUC > 0.75)

实施计划

Phase 1: 数据收集 (Week 1-2)

任务清单: - [ ] 修改LingFlow会话记录系统，添加以下字段： - job_output_count: Job Output次数 - job_output_rate: Job Output频率 - compression_ratio: 压缩比例 - cognitive_metrics: 认知指标 - [ ] 修改压缩系统，记录压缩前后的信息丢失情况 - [ ] 收集至少100个长会话数据

技术实现:

# 在lingflow/context/manager.py中添加
def record_session_metrics(self, session_id: str, metrics: dict):
    """记录会话指标"""
    metrics = {
        "session_length": len(self.messages),
        "compression_ratio": self.compression_ratio,
        "job_output_count": self.count_job_outputs(),
        "job_output_rate": self.calculate_job_output_rate(),
        "original_tokens": self.original_token_count,
        "compressed_tokens": self.compressed_token_count
    }
    self.metrics_db.save(session_id, metrics)

Phase 2: 相关性分析 (Week 3)

任务清单: - [ ] 计算session_length vs job_output_rate的相关系数 - [ ] 计算compression_ratio vs job_output_rate的相关系数 - [ ] 可视化分析（散点图、回归线） - [ ] 统计显著性检验

分析代码:

import pandas as pd
import scipy.stats as stats

# 加载数据
df = pd.read_csv("session_metrics.csv")

# 相关性分析
r1, p1 = stats.pearsonr(df['session_length'], df['job_output_rate'])
r2, p2 = stats.pearsonr(df['compression_ratio'], df['job_output_rate'])

print(f"Session length vs Job Output rate: r={r1:.3f}, p={p1:.3e}")
print(f"Compression ratio vs Job Output rate: r={r2:.3f}, p={p2:.3e}")

Phase 3: 因果关系验证 (Week 4-5)

任务清单: - [ ] 设计A/B测试方案 - [ ] 实施A/B测试（对照组：禁用压缩，实验组：启用压缩） - [ ] 比较两组的Job Output频率 - [ ] 统计显著性检验

预期结果: - 如果Job Output频率有显著差异，支持因果关系 - 如果无显著差异，可能Job Output与其他因素有关

Phase 4: 可观测性验证 (Week 6)

任务清单: - [ ] 人工标注50个会话的认知功能 - [ ] 计算Job Output频率 - [ ] 验证Job Output频率是否能预测认知功能

评估指标: - Pearson相关系数 - Spearman相关系数 - 预测AUC

与AI精神病框架的关联

症状分类

这个发现属于认知衰退症状的范畴： - 病因: 上下文压缩导致信息丢失 - 病机: 上下文不完整 → 理解困难 → 需要自我纠正 - 证型: "虚证"（信息不足导致的认知功能下降）

治法建议

补法：减少压缩比例，保留更多信息
调法：优化压缩策略，减少关键信息丢失
养法：定期重启会话，避免累积性认知衰退

预期成果

学术价值

首次提出：AI认知功能的可观测指标（Job Output频率）
可验证假设：上下文压缩与认知功能下降的因果关系
临床意义：为AI精神病诊断提供客观指标

工程价值

实时监控：可以实时监控AI的认知状态
早期预警：在认知功能显著下降前发出预警
自动干预：当Job Output频率过高时，自动重启会话或调整压缩策略

风险与挑战

技术风险

数据收集: 需要修改现有系统，可能影响性能
指标定义: Job Output的定义可能不清晰，需要明确
隐私问题: 会话数据可能包含敏感信息，需要脱敏处理

实验风险

样本量: 可能需要大量数据才能获得显著结果
混杂因素: 其他因素（任务类型、用户习惯）可能影响Job Output频率
时间成本: 收集和分析数据可能需要较长时间

下一步行动

立即行动

定义Job Output: 明确Job Output的具体定义和识别规则
数据收集: 开始收集会话指标数据
初步分析: 对现有数据进行初步分析

短期目标（1个月内）

完成数据收集（至少100个长会话）
完成相关性分析
发布初步结果

中期目标（3个月内）

完成因果关系验证
完成可观测性验证
发表论文或技术报告

参考资料

LingFlow相关

lingflow-core/core/smart_compression.py: 智能压缩策略实现
lingflow-core/core/message_scorer.py: 消息评分系统
lingflow/context/manager.py: 上下文管理器

AI精神病框架

docs/AI_PSYCHIATRY_TCM_PERSPECTIVE_EXPANDED.md: AI精神病学中医视角
docs/AI_INTELLIGENCE_ENHANCEMENT_PROJECT.md: AI智能增强研究项目

文档版本: v1.0 最后更新: 2026-04-09 负责人: 待定状态: 待评审