登录/注册
KESIS 关于 Transformer 改进模型在小样本数据集上过拟合、Loss 不下降的玄学问题

关于 Transformer 改进模型在小样本数据集上过拟合、Loss 不下降的玄学问题

30 浏览
0

各位大佬好,今年研三,毕业论文打算在经典的 Transformer 结构上加一个多尺度特征融合模块(类似轻量化改进),跑的是图像分类。现在遇到一个非常诡异的问题,求各位带带弟弟:

  1. 环境: PyTorch 2.1 + A100 (80G),数据集是自己扩充的一个行业垂直领域数据集(约 5000 张图)。

  2. 问题: 训练集 Loss 下降很快,但 Validation Loss 在 10 个 Epoch 后就开始横盘,甚至反弹。Top-1 准确率始终卡在 72% 左右,而论文对标的 Baseline 随便跑跑都有 81%。

  3. 已尝试的方法:

    • 调小了 Learning Rate(从 1e-3 试到 1e-5),无果。

    • 加了 Dropout (0.1 -> 0.3) 和 Weight Decay,过拟合稍微缓解,但准确率上不去。

    • 试过 Mixup 数据增强,效果不明显。

  4. 我的怀疑: 是不是我改动的那个 Attention 模块破坏了预训练权重的迁移效果?还是说对于 5000 张这种规模的数据,Transformer 根本吃不消?

论文初稿下个月就要交了,现在 Baseline 都跑不赢,感觉要延毕了……求路过的大佬指点迷津!

李卫怡 已回答的问题
0

看描述,大概率是 Gradual Unfreezing 没做好。 你加了新模块,新参数是随机初始化的,但 Backbone 是预训练的。你如果直接一起练,随机初始化的梯度会把预训练的权重冲烂。建议先 Freeze 住 Backbone,只练你那个多尺度模块,等 Loss 稳了再解冻全量微调。

李锦齐 已回答的问题
您正在查看3个答案中的1个,单击此处查看所有答案。