跳转至

训练数据基线实验 - 进度报告

报告日期: 2026-04-11 实验状态: 数据清洗完成,基线训练受阻 实验负责人: LingResearch (灵研)


一、数据清洗结果 ✅

1.1 清理执行

脚本: scripts/clean_training_data.py 执行时间: 2026-04-11 清理目标: 移除所有 JSONL 文件中的 \r 字符

1.2 清理统计

数据集 总样本 已清理 清理率 备份文件
embedding_pairs/hard_negatives.jsonl 100 53 53.0%
embedding_pairs/train_pairs.jsonl 2,189 1,506 68.8%
embedding_pairs/val_pairs.jsonl 244 151 61.9%
intent_classifier/test.jsonl 1,873 570 30.4%
intent_classifier/train.jsonl 7,491 2,142 28.6%
qa_benchmark/test_qa.jsonl 863 408 47.3%
qa_benchmark/train_qa.jsonl 3,451 1,540 44.6%
总计 16,211 6,370 39.3%

1.3 清理验证

验证方法: - 原文件已备份为 .backup - JSON 格式完整性验证通过 - 无数据丢失 - 所有 \r 字符已移除


二、基线训练脚本 ✅

2.1 意图分类器基线训练脚本

文件: scripts/train_intent_classifier_baseline.py 模型: hfl/chinese-roberta-wwm-ext-tiny 训练参数: - Epochs: 5 - Batch size: 16 - Learning rate: 2e-5 - Warmup steps: 100 - Early stopping patience: 3 - Mixed precision: enabled (CUDA)

评估指标: - 主指标: F1-score macro-averaged (目标 >0.85) - 辅助指标: Accuracy, F1 per class

特色功能: - 分层采样保持类别分布 - 类别权重计算(comparison 类 ~4x 权重) - 自动保存最佳模型 - 详细的分类报告


三、基线训练执行受阻 ⚠️

3.1 问题描述

执行命令:

python scripts/train_intent_classifier_baseline.py

错误现象:

HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded
Connection to huggingface.co timed out (connect timeout=10)

重试次数: 5 次(全部失败) 超时时长: 每次连接 10 秒

3.2 问题分析

根本原因: Hugging Face 模型仓库网络连接超时

影响范围: - 无法下载 hfl/chinese-roberta-wwm-ext-tiny 模型 - 无法下载 tokenizer 配置文件 - 无法下载模型权重

可能原因: 1. 网络防火墙阻止 huggingface.co 2. Hugging Face 服务暂时不可用 3. 网络连接不稳定 4. DNS 解析问题

3.3 已尝试的解决方案

  1. 等待重试 - 已等待 5+ 分钟,问题持续
  2. 使用代理 - 未配置代理,无法尝试
  3. 镜像源 - 未配置镜像源

四、下一步建议

4.1 短期方案(高优先级)

  1. 配置镜像源

    from transformers import AutoConfig
    AutoConfig.from_pretrained(
        "hfl/chinese-roberta-wwm-ext-tiny",
        mirror="tuna",  # 清华镜像
    )
    

  2. 使用本地缓存模型

  3. 检查是否已有本地缓存
  4. 使用 --local_files_only 参数

  5. 手动下载模型

  6. 通过其他网络下载模型文件
  7. 手动解压到模型目录

4.2 中期方案(中优先级)

  1. 更换模型源
  2. 使用国内模型源(如 ModelScope)
  3. 使用已下载的本地模型

  4. 简化模型

  5. 使用更小的模型减少下载量
  6. 使用简单的 BERT 模型

4.3 长期方案(低优先级)

  1. 建立模型缓存机制
  2. 预下载所有需要的模型
  3. 建立本地模型仓库

  4. 网络优化

  5. 配置代理服务器
  6. 优化网络连接

五、当前状态总结

5.1 已完成 ✅

  1. 数据清洗脚本 - 完成并测试通过
  2. 清理了 16,211 个样本
  3. 移除了 6,370 个 \r 字符(39.3% 清理率)
  4. 无数据丢失,备份完整

  5. 基线训练脚本 - 完成并准备就绪

  6. 完整的训练流程
  7. 包含所有评估指标
  8. 支持类别权重和早停

5.2 待处理 ⏳

  1. 解决网络问题 - 阻止了模型下载
  2. 需要配置镜像源或本地缓存
  3. 或使用其他模型源

  4. 执行基线训练 - 等待网络问题解决

  5. 预计训练时间:30-60 分钟
  6. 预期性能:F1 macro >0.85

5.3 下一阶段

基线训练完成后: 1. 数据平衡实验(类别权重 vs 过采样) 2. 困难负样本扩充 3. 分层评估实现 4. 性能分析报告


六、文件输出

6.1 新建文件

  • scripts/clean_training_data.py - 数据清洗脚本
  • scripts/train_intent_classifier_baseline.py - 基线训练脚本
  • docs/TRAINING_DATA_QUALITY_REVIEW_2026-04-11.md - 审查报告
  • docs/TRAINING_BASELINE_PROGRESS_2026-04-11.md - 本文件

6.2 修改文件

  • 所有 data/training/**/*.jsonl 文件已清理并备份

七、时间线

时间 任务 状态
2026-04-08 数据生成完成
2026-04-11 上午 数据审查完成
2026-04-11 下午 数据清洗完成
2026-04-11 下午 基线训练脚本完成
2026-04-11 下午 基线训练受阻 ⚠️
待定 网络问题解决
待定 基线训练完成
待定 类别平衡实验

八、需要的外部支持

  1. 网络配置 - 需要配置 Hugging Face 镜像源或代理
  2. 模型下载 - 可能需要手动下载模型文件
  3. 环境检查 - 检查是否有本地模型缓存可用

报告结束

下一步 - 等待网络问题解决,或配置镜像源后重新启动基线训练