0. 正负样本&训练目标
- 负样本:所有点击卡片进入的行为都是一条负样本
- 正样本:如果进入的行为,分享回流带回来n个用户(目前用的推荐底表,计算的24小时回流),则添加n条正样本(重复当前的数据,变成1条负样本,n条正样本)
- 训练目标:训练二分类模型
1. make_data.sh (生成特征数据)
2. stat_freq.sh (统计特征频次,过滤低频特征)
3. pipline/make_train_sample.sh(生成训练数据,使用过滤低频的特征文件)
4. pipline/train_xgb_model.sh (训练模型)
5. pipline/xgb_model_eval.sh (评估模型)
6. pipline/eval_qq.sh (生成qq)