这是2018年3月到5月,天池大数据举办的一场关于广告转化率预估的比赛,也是我首次参加的天池大数据比赛,比赛的介绍以及数据下载见:
比赛共有5204支队伍参加,我的排名是复赛第187名,成绩虽不理想,但从比赛中也学到了不少数据操作上的方法。
- 代码完整的操作步骤是从Step_1到Step_8依次执行,最后附加的缺失值处理仅作参考,可忽略。
- 执行完所有步骤估计至少需要32G内存,如果内存较低,可能需要自行加入一些数据分段处理等方法。
- 数据预处理做得少,基本使用源数据。
- 大量工夫花在了特征工程上,无模型融合,仅使用LightGBM一种算法,单模型提交。
- 特征主要包含组合统计特征,时间差特征,转化率特征等。
- 特征共有300多个,由于自身机器配置落后以及时间原因,未进行特征选择,相信特征选择之后结果会更好。
- 代码是比赛之后从头整理的,和比赛过程中使用的代码并不完全一样,但基本涵盖了我在比赛中使用的全部方法。
- 部分代码参考了他人的成果,向他们表示衷心的感谢。