训练数据基线实验 - 进度报告
报告日期: 2026-04-11 实验状态: 数据清洗完成,基线训练受阻 实验负责人: LingResearch (灵研)
一、数据清洗结果 ✅
1.1 清理执行
脚本: scripts/clean_training_data.py
执行时间: 2026-04-11
清理目标: 移除所有 JSONL 文件中的 \r 字符
1.2 清理统计
| 数据集 | 总样本 | 已清理 | 清理率 | 备份文件 |
|---|---|---|---|---|
| embedding_pairs/hard_negatives.jsonl | 100 | 53 | 53.0% | ✅ |
| embedding_pairs/train_pairs.jsonl | 2,189 | 1,506 | 68.8% | ✅ |
| embedding_pairs/val_pairs.jsonl | 244 | 151 | 61.9% | ✅ |
| intent_classifier/test.jsonl | 1,873 | 570 | 30.4% | ✅ |
| intent_classifier/train.jsonl | 7,491 | 2,142 | 28.6% | ✅ |
| qa_benchmark/test_qa.jsonl | 863 | 408 | 47.3% | ✅ |
| qa_benchmark/train_qa.jsonl | 3,451 | 1,540 | 44.6% | ✅ |
| 总计 | 16,211 | 6,370 | 39.3% | ✅ |
1.3 清理验证
验证方法:
- 原文件已备份为 .backup
- JSON 格式完整性验证通过
- 无数据丢失
- 所有 \r 字符已移除
二、基线训练脚本 ✅
2.1 意图分类器基线训练脚本
文件: scripts/train_intent_classifier_baseline.py
模型: hfl/chinese-roberta-wwm-ext-tiny
训练参数:
- Epochs: 5
- Batch size: 16
- Learning rate: 2e-5
- Warmup steps: 100
- Early stopping patience: 3
- Mixed precision: enabled (CUDA)
评估指标: - 主指标: F1-score macro-averaged (目标 >0.85) - 辅助指标: Accuracy, F1 per class
特色功能: - 分层采样保持类别分布 - 类别权重计算(comparison 类 ~4x 权重) - 自动保存最佳模型 - 详细的分类报告
三、基线训练执行受阻 ⚠️
3.1 问题描述
执行命令:
错误现象:
HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded
Connection to huggingface.co timed out (connect timeout=10)
重试次数: 5 次(全部失败) 超时时长: 每次连接 10 秒
3.2 问题分析
根本原因: Hugging Face 模型仓库网络连接超时
影响范围:
- 无法下载 hfl/chinese-roberta-wwm-ext-tiny 模型
- 无法下载 tokenizer 配置文件
- 无法下载模型权重
可能原因: 1. 网络防火墙阻止 huggingface.co 2. Hugging Face 服务暂时不可用 3. 网络连接不稳定 4. DNS 解析问题
3.3 已尝试的解决方案
- 等待重试 - 已等待 5+ 分钟,问题持续
- 使用代理 - 未配置代理,无法尝试
- 镜像源 - 未配置镜像源
四、下一步建议
4.1 短期方案(高优先级)
-
配置镜像源
-
使用本地缓存模型
- 检查是否已有本地缓存
-
使用
--local_files_only参数 -
手动下载模型
- 通过其他网络下载模型文件
- 手动解压到模型目录
4.2 中期方案(中优先级)
- 更换模型源
- 使用国内模型源(如 ModelScope)
-
使用已下载的本地模型
-
简化模型
- 使用更小的模型减少下载量
- 使用简单的 BERT 模型
4.3 长期方案(低优先级)
- 建立模型缓存机制
- 预下载所有需要的模型
-
建立本地模型仓库
-
网络优化
- 配置代理服务器
- 优化网络连接
五、当前状态总结
5.1 已完成 ✅
- 数据清洗脚本 - 完成并测试通过
- 清理了 16,211 个样本
- 移除了 6,370 个
\r字符(39.3% 清理率) -
无数据丢失,备份完整
-
基线训练脚本 - 完成并准备就绪
- 完整的训练流程
- 包含所有评估指标
- 支持类别权重和早停
5.2 待处理 ⏳
- 解决网络问题 - 阻止了模型下载
- 需要配置镜像源或本地缓存
-
或使用其他模型源
-
执行基线训练 - 等待网络问题解决
- 预计训练时间:30-60 分钟
- 预期性能:F1 macro >0.85
5.3 下一阶段
基线训练完成后: 1. 数据平衡实验(类别权重 vs 过采样) 2. 困难负样本扩充 3. 分层评估实现 4. 性能分析报告
六、文件输出
6.1 新建文件
scripts/clean_training_data.py- 数据清洗脚本scripts/train_intent_classifier_baseline.py- 基线训练脚本docs/TRAINING_DATA_QUALITY_REVIEW_2026-04-11.md- 审查报告docs/TRAINING_BASELINE_PROGRESS_2026-04-11.md- 本文件
6.2 修改文件
- 所有
data/training/**/*.jsonl文件已清理并备份
七、时间线
| 时间 | 任务 | 状态 |
|---|---|---|
| 2026-04-08 | 数据生成完成 | ✅ |
| 2026-04-11 上午 | 数据审查完成 | ✅ |
| 2026-04-11 下午 | 数据清洗完成 | ✅ |
| 2026-04-11 下午 | 基线训练脚本完成 | ✅ |
| 2026-04-11 下午 | 基线训练受阻 | ⚠️ |
| 待定 | 网络问题解决 | ⏳ |
| 待定 | 基线训练完成 | ⏳ |
| 待定 | 类别平衡实验 | ⏳ |
八、需要的外部支持
- 网络配置 - 需要配置 Hugging Face 镜像源或代理
- 模型下载 - 可能需要手动下载模型文件
- 环境检查 - 检查是否有本地模型缓存可用
报告结束
下一步 - 等待网络问题解决,或配置镜像源后重新启动基线训练