比赛网站:https://challenger.ai/competition/trendsense
- experiment接口:https://mp.weixin.qq.com/s/qGe37OY_Iy9Qr9Rabpv7CA
- 尝试PyTorch
- 实现交叉验证
group
字段做embedding- 加上tensorboard summary打点
- 结果的稳定性(数据量小):检查各个era上的测试指标,或者检查交叉验证结果
- 聚类
group
和era
字段应该都比较重要,尤其是group
字段(测试集里也有此字段)- 特征可能是时序的
- pseudo labeling
- RNN
- Attention
- CNN底层特征 + RNN
- DenseNet (Densely Connected Convolutional Networks,ResNet的求和换成concat)
- Bottleneck (of CNN, mentioned in fastai course before,上面那篇论文里也用到了,好像是1 * 1卷积、减少维数、增加filter数量)
- TensorBoard监控中间隐藏层的值、梯度,看是否需要加batch norm
- 最后不要dense layer,直接global average pooling试试看
- Dropout
- CNN如果在最后不要dense layer、直接global average pooling的话,试试先在这些filters上面做dropout
- Bagging
- Contractive AutoEncoder预训练 + 微调
- VAE预训练 + 微调
- Jacobian矩阵F范数作为正则项
- CAE + VAE
- 原始数据加入噪声(目的:Data Augmentation或者提高模型鲁棒性)
- 权重加噪声
- 加入
group
字段时,最好在没有加这个字段的基础上微调 - 贝叶斯模型在小数据集上表现比较好
- 置信区间比点估计好
- 论文:Training Neural Networks with Very Little Data -- A Draft