小模型自监督效果

Question

我们尝试了小模型自监督的效果，结果不如有监督训练，gold-yolo这篇论文也是类似的结论，模型越小提升幅度越小，您对小模型用spark方法有什么看法吗？

keyu-tian · Answer

太小的模型（或者有一些特殊operator的模型）可能不太能从mask modeling中受益很多，因为他们的supervised pretraining可能还

leoxxxxxD · Answer

再请教一个问题，小模型在自监督训练的时候，会出现loss突然增大的情况，您有遇到过类似情况吗？
"cur_ep": "28/1600", "last_L": 0.5

keyu-tian · Answer

印象中没有遇到。用fp16了吗？我猜测也有可能是batchsize或learning rate过大

leoxxxxxD · Answer

没有用fp16，batchsize是1000左右，比默认的4096小，learning rate是您的代码里面计算得到的

leoxxxxxD · Answer

可以开源下您resnet50的训练日志吗

keyu-tian · Answer

如果您dataset显著比imagenet小，batchsize1000可能对dataset来说过大

这是 1600 epoch Res

leoxxxxxD · Answer

您有对比过400或者800轮相比1600轮的效果吗

keyu-tian · Answer

可见我们paper里的ablation部分，另外您或许可以调整--base_lr=1e-4，我们的默认值2e-4或许对您dataset来说过大

leoxxxxxD · Answer

数据集同样使用的imagenet，只是模型是mobilenet级别的网络，学习率还建议调小吗

keyu-tian · Answer

<p dir="auto">不是很确定，或许可以尝试调整一下变大变小；另外如果网络中有特殊算子，可能需要手动定义一下它的sparse形式，因为 <a href="https://github.com/

小模型自监督效果 about spark HOT 10 CLOSED