关于 Transformer 改进模型在小样本数据集上过拟合、Loss 不下降的玄学问题

Question

29 浏览2024年5月19日

0

赵睿哲 2024年2月4日 0条评论

各位大佬好，今年研三，毕业论文打算在经典的 Transformer 结构上加一个多尺度特征融合模块（类似轻量化改进），跑的是图像分类。现在遇到一个非常诡异的问题，求各位带带弟弟：

环境： PyTorch 2.1 + A100 (80G)，数据集是自己扩充的一个行业垂直领域数据集（约 5000 张图）。
问题：训练集 Loss 下降很快，但 Validation Loss 在 10 个 Epoch 后就开始横盘，甚至反弹。Top-1 准确率始终卡在 72% 左右，而论文对标的 Baseline 随便跑跑都有 81%。
已尝试的方法：
- 调小了 Learning Rate（从 1e-3 试到 1e-5），无果。
- 加了 Dropout (0.1 -> 0.3) 和 Weight Decay，过拟合稍微缓解，但准确率上不去。
- 试过 Mixup 数据增强，效果不明显。
我的怀疑：是不是我改动的那个 Attention 模块破坏了预训练权重的迁移效果？还是说对于 5000 张这种规模的数据，Transformer 根本吃不消？

论文初稿下个月就要交了，现在 Baseline 都跑不赢，感觉要延毕了……求路过的大佬指点迷津！

score 0 · Answer 1 · 2024-03-11T13:03:02+00:00

5000 张图跑 Transformer？楼主你心真大。 Transformer 是出了名的“数据黑洞”，没有大规模预训练（比如 ImageNet-21K）根本带不动。建议：

检查一下你的 Learning Rate Scheduler，是不是 Warmup 步数设得太短了？Transformer 对学习率非常敏感。

先把你的改进模块去掉，跑一遍原版模型，看看能不能复现 81% 的结果。如果原版也跑不到，那就是你数据预处理或者 Data Loader 的问题。