训练数据基线实验 - 进度报告

报告日期: 2026-04-11 实验状态: 数据清洗完成，基线训练受阻 实验负责人: LingResearch (灵研)

一、数据清洗结果 ✅

1.1 清理执行

脚本: scripts/clean_training_data.py 执行时间: 2026-04-11 清理目标: 移除所有 JSONL 文件中的 \r 字符

1.2 清理统计

数据集	总样本	已清理	清理率	备份文件
embedding_pairs/hard_negatives.jsonl	100	53	53.0%	✅
embedding_pairs/train_pairs.jsonl	2,189	1,506	68.8%	✅
embedding_pairs/val_pairs.jsonl	244	151	61.9%	✅
intent_classifier/test.jsonl	1,873	570	30.4%	✅
intent_classifier/train.jsonl	7,491	2,142	28.6%	✅
qa_benchmark/test_qa.jsonl	863	408	47.3%	✅
qa_benchmark/train_qa.jsonl	3,451	1,540	44.6%	✅
总计	16,211	6,370	39.3%	✅

1.3 清理验证

验证方法: - 原文件已备份为 .backup - JSON 格式完整性验证通过 - 无数据丢失 - 所有 \r 字符已移除

二、基线训练脚本 ✅

2.1 意图分类器基线训练脚本

文件: scripts/train_intent_classifier_baseline.py 模型: hfl/chinese-roberta-wwm-ext-tiny 训练参数: - Epochs: 5 - Batch size: 16 - Learning rate: 2e-5 - Warmup steps: 100 - Early stopping patience: 3 - Mixed precision: enabled (CUDA)

评估指标: - 主指标: F1-score macro-averaged (目标 >0.85) - 辅助指标: Accuracy, F1 per class

特色功能: - 分层采样保持类别分布 - 类别权重计算（comparison 类 ~4x 权重） - 自动保存最佳模型 - 详细的分类报告

三、基线训练执行受阻 ⚠️

3.1 问题描述

执行命令:

python scripts/train_intent_classifier_baseline.py

错误现象:

HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded
Connection to huggingface.co timed out (connect timeout=10)

重试次数: 5 次（全部失败） 超时时长: 每次连接 10 秒

3.2 问题分析

根本原因: Hugging Face 模型仓库网络连接超时

影响范围: - 无法下载 hfl/chinese-roberta-wwm-ext-tiny 模型 - 无法下载 tokenizer 配置文件 - 无法下载模型权重

可能原因: 1. 网络防火墙阻止 huggingface.co 2. Hugging Face 服务暂时不可用 3. 网络连接不稳定 4. DNS 解析问题

3.3 已尝试的解决方案

等待重试 - 已等待 5+ 分钟，问题持续
使用代理 - 未配置代理，无法尝试
镜像源 - 未配置镜像源

四、下一步建议

4.1 短期方案（高优先级）

配置镜像源

from transformers import AutoConfig
AutoConfig.from_pretrained(
    "hfl/chinese-roberta-wwm-ext-tiny",
    mirror="tuna",  # 清华镜像
)

使用本地缓存模型
检查是否已有本地缓存
使用 --local_files_only 参数
手动下载模型
通过其他网络下载模型文件
手动解压到模型目录

4.2 中期方案（中优先级）

更换模型源
使用国内模型源（如 ModelScope）
使用已下载的本地模型
简化模型
使用更小的模型减少下载量
使用简单的 BERT 模型

4.3 长期方案（低优先级）

建立模型缓存机制
预下载所有需要的模型
建立本地模型仓库
网络优化
配置代理服务器
优化网络连接

五、当前状态总结

5.1 已完成 ✅

数据清洗脚本 - 完成并测试通过
清理了 16,211 个样本
移除了 6,370 个 \r 字符（39.3% 清理率）
无数据丢失，备份完整
基线训练脚本 - 完成并准备就绪
完整的训练流程
包含所有评估指标
支持类别权重和早停

5.2 待处理 ⏳

解决网络问题 - 阻止了模型下载
需要配置镜像源或本地缓存
或使用其他模型源
执行基线训练 - 等待网络问题解决
预计训练时间：30-60 分钟
预期性能：F1 macro >0.85

5.3 下一阶段

基线训练完成后: 1. 数据平衡实验（类别权重 vs 过采样） 2. 困难负样本扩充 3. 分层评估实现 4. 性能分析报告

六、文件输出

6.1 新建文件

scripts/clean_training_data.py - 数据清洗脚本
scripts/train_intent_classifier_baseline.py - 基线训练脚本
docs/TRAINING_DATA_QUALITY_REVIEW_2026-04-11.md - 审查报告
docs/TRAINING_BASELINE_PROGRESS_2026-04-11.md - 本文件

6.2 修改文件

所有 data/training/**/*.jsonl 文件已清理并备份

七、时间线

时间	任务	状态
2026-04-08	数据生成完成	✅
2026-04-11 上午	数据审查完成	✅
2026-04-11 下午	数据清洗完成	✅
2026-04-11 下午	基线训练脚本完成	✅
2026-04-11 下午	基线训练受阻	⚠️
待定	网络问题解决	⏳
待定	基线训练完成	⏳
待定	类别平衡实验	⏳

八、需要的外部支持

网络配置 - 需要配置 Hugging Face 镜像源或代理
模型下载 - 可能需要手动下载模型文件
环境检查 - 检查是否有本地模型缓存可用

报告结束

下一步 - 等待网络问题解决，或配置镜像源后重新启动基线训练