各位大佬好,今年研三,毕业论文打算在经典的 Transformer 结构上加一个多尺度特征融合模块(类似轻量化改进),跑的是图像分类。现在遇到一个非常诡异的问题,求各位带带弟弟:
-
环境: PyTorch 2.1 + A100 (80G),数据集是自己扩充的一个行业垂直领域数据集(约 5000 张图)。
-
问题: 训练集 Loss 下降很快,但 Validation Loss 在 10 个 Epoch 后就开始横盘,甚至反弹。Top-1 准确率始终卡在 72% 左右,而论文对标的 Baseline 随便跑跑都有 81%。
-
已尝试的方法:
-
调小了 Learning Rate(从 1e-3 试到 1e-5),无果。
-
加了 Dropout (0.1 -> 0.3) 和 Weight Decay,过拟合稍微缓解,但准确率上不去。
-
试过 Mixup 数据增强,效果不明显。
-
-
我的怀疑: 是不是我改动的那个 Attention 模块破坏了预训练权重的迁移效果?还是说对于 5000 张这种规模的数据,Transformer 根本吃不消?
论文初稿下个月就要交了,现在 Baseline 都跑不赢,感觉要延毕了……求路过的大佬指点迷津!
李卫怡 已回答的问题