登录/注册
KESIS 关于 Transformer 改进模型在小样本数据集上过拟合、Loss 不下降的玄学问题

关于 Transformer 改进模型在小样本数据集上过拟合、Loss 不下降的玄学问题

29 浏览
0

各位大佬好,今年研三,毕业论文打算在经典的 Transformer 结构上加一个多尺度特征融合模块(类似轻量化改进),跑的是图像分类。现在遇到一个非常诡异的问题,求各位带带弟弟:

  1. 环境: PyTorch 2.1 + A100 (80G),数据集是自己扩充的一个行业垂直领域数据集(约 5000 张图)。

  2. 问题: 训练集 Loss 下降很快,但 Validation Loss 在 10 个 Epoch 后就开始横盘,甚至反弹。Top-1 准确率始终卡在 72% 左右,而论文对标的 Baseline 随便跑跑都有 81%。

  3. 已尝试的方法:

    • 调小了 Learning Rate(从 1e-3 试到 1e-5),无果。

    • 加了 Dropout (0.1 -> 0.3) 和 Weight Decay,过拟合稍微缓解,但准确率上不去。

    • 试过 Mixup 数据增强,效果不明显。

  4. 我的怀疑: 是不是我改动的那个 Attention 模块破坏了预训练权重的迁移效果?还是说对于 5000 张这种规模的数据,Transformer 根本吃不消?

论文初稿下个月就要交了,现在 Baseline 都跑不赢,感觉要延毕了……求路过的大佬指点迷津!

李卫怡 已回答的问题
0

5000 张图跑 Transformer?楼主你心真大。 Transformer 是出了名的“数据黑洞”,没有大规模预训练(比如 ImageNet-21K)根本带不动。 建议:

检查一下你的 Learning Rate Scheduler,是不是 Warmup 步数设得太短了?Transformer 对学习率非常敏感。

先把你的改进模块去掉,跑一遍原版模型,看看能不能复现 81% 的结果。如果原版也跑不到,那就是你数据预处理或者 Data Loader 的问题。

孙浩廷 已回答的问题
您正在查看3个答案中的1个,单击此处查看所有答案。