# 1. 总体 - 根据用户行为数据,进行行为画像。 - 使用时,需将脚本中的jar文件路径,替换成自己的路径 - [数据生成code](https://git.yishihui.com/algorithm/recommend-emr-dataprocess/src/feature/jch_makedata) - [性别模型训练code: spark_xgboost](https://git.yishihui.com/algorithm/recommend-model/src/feature/jch) - 跳板机: ssh -i stuuudy.pem root@192.168.207.16 - spark: ssh root@192.168.141.208 # 2. 基础数据表 ## 2.1 用户点击分享行为 - loghubods.alg_recsys_user_share_click_event ## 2.2 视频标签&关键词 - loghubods.video_merge_tag - loghubods.alg_recsys_profile_user_behavior_video ## 2.3 微信性别标签 - loghubods.alg_recsys_user_wx_gender ## 2.4 样本数据 - loghubods.alg_recsys_feature_behavior_profile # 3. 生成特征数据 - make_data.sh 生成特征 - stat_freq.sh 统计特征频次 # 4. 性别模型 ## 4.1 生成训练数据 - make_train_sample.sh ## 4.2 生成预测数据 - make_predict_sample.sh ## 4.3 评估模型 - xgb_model_eval.sh ## 4.4 预测 - xgb_model_predict.sh ## 4.5 结果写入hive - parse_to_hive.sh