|
@@ -1,3 +1,8 @@
|
|
|
|
|
+# 0. 正负样本&训练目标
|
|
|
|
|
+- 负样本:所有点击卡片进入的行为都是一条负样本
|
|
|
|
|
+- 正样本:如果进入的行为,分享回流带回来n个用户(目前用的推荐底表,计算的24小时回流),则添加n条正样本(重复当前的数据,变成1条负样本,n条正样本)
|
|
|
|
|
+- 训练目标:训练二分类模型
|
|
|
|
|
+
|
|
|
# 1. make_data.sh (生成特征数据)
|
|
# 1. make_data.sh (生成特征数据)
|
|
|
# 2. stat_freq.sh (统计特征频次,过滤低频特征)
|
|
# 2. stat_freq.sh (统计特征频次,过滤低频特征)
|
|
|
# 3. pipline/make_train_sample.sh(生成训练数据,使用过滤低频的特征文件)
|
|
# 3. pipline/make_train_sample.sh(生成训练数据,使用过滤低频的特征文件)
|