1 год назад · 95ef011c87
--- a/ad/02_ad_model_update_test.sh
+++ b/ad/02_ad_model_update_test.sh
@@ -8,62 +8,5 @@ export JAVA_HOME=/usr/lib/jvm/java-1.8.0
 
															 sh_path=$(cd $(dirname $0); pwd)
														
 
															 source ${sh_path}/00_common.sh
														
 
															-# 评测结果保存路径，后续需要根据此文件评估是否要更新模型
														
 
															-predict_analyse_file_path=/root/zhaohp/XGB/predict_analyse_file/20241105_351_1000_analyse.txt
														
 
															-
														
 
															-# 保存模型评估的分析结果
														
 
															-old_incr_rate_avg=0
														
 
															-new_incr_rate_avg=0
														
 
															-
														
 
															-top10_msg=""
														
 
															-
														
 
															-
														
 
															-calc_model_predict() {
														
 
															-  local count=0
														
 
															-  local max_line=10
														
 
															-  local old_total_diff=0
														
 
															-  local new_total_diff=0
														
 
															-  top10_msg="| CID  | 老模型相对真实CTCVR的变化 | 新模型相对真实CTCVR的变化 |"
														
 
															-  top10_msg+=" \n| ---- | --------- | -------- |"
														
 
															-  while read -r line && [ ${count} -lt ${max_line} ]; do
														
 
															-
														
 
															-      # 使用 ! 取反判断，只有当行中不包含 "cid" 时才执行继续的逻辑
														
 
															-      if [[ "${line}" == *"cid"* ]]; then
														
 
															-          continue
														
 
															-      fi
														
 
															-
														
 
															-      read -a numbers <<< "${line}"
														
 
															-
														
 
															-      # 分数分别保存
														
 
															-      real_score_map[${numbers[0]}]=${numbers[3]}
														
 
															-      old_score_map[${numbers[0]}]=${numbers[6]}
														
 
															-      new_score_map[${numbers[0]}]=${numbers[7]}
														
 
															-
														
 
															-      # 拼接Top10详情的飞书消息
														
 
															-      top10_msg="${top10_msg} \n| ${numbers[0]} | ${numbers[6]} | ${numbers[7]} | "
														
 
															-
														
 
															-      # 计算top10相对误差绝对值的均值
														
 
															-      old_abs_score=$( echo "${numbers[6]} * ((${numbers[6]} >= 0) * 2 - 1)" | bc -l )
														
 
															-      new_abs_score=$( echo "${numbers[7]} * ((${numbers[7]} >= 0) * 2 - 1)" | bc -l )
														
 
															-
														
 
															-      old_total_diff=$( echo "${old_total_diff} + ${old_abs_score}" | bc -l )
														
 
															-      new_total_diff=$( echo "${new_total_diff} + ${new_abs_score}" | bc -l )
														
 
															-
														
 
															-      count=$((${count} + 1))
														
 
															-
														
 
															-  done < "${predict_analyse_file_path}"
														
 
															-
														
 
															-  old_incr_rate_avg=$( echo "scale=6; ${old_total_diff} / ${count}" | bc -l )
														
 
															-
														
 
															-  new_incr_rate_avg=$( echo "scale=6; ${new_total_diff} / ${count}" | bc -l )
														
 
															-
														
 
															-  echo "老模型Top10差异平均值: ${old_incr_rate_avg}"
														
 
															-  echo "新模型Top10差异平均值: ${new_incr_rate_avg}"
														
 
															-  echo "新老模型分数对比: "
														
 
															-  for cid in "${!new_score_map[@]}"; do
														
 
															-    echo "\t CID: $cid, 老模型分数: ${old_score_map[$cid]}, 新模型分数: ${new_score_map[$cid]}"
														
 
															-  done
														
 
															-}
														
 
															-
														
 
															-
														
 
															-calc_model_predict
														
 
															+local python_return_code=$(python ${sh_path}/model_predict_analyse.py -op ${online_model_predict_result_path} -np ${new_model_predict_result_path} -af ${predict_analyse_file_path} -cf ${calibration_file_path})
														
 
															+echo "${python_return_code}"
														
--- a/ad/25_xgb_make_data_origin_bucket.sh
+++ b/ad/25_xgb_make_data_origin_bucket.sh
@@ -12,8 +12,6 @@ source ${sh_path}/00_common.sh
 
															 source /root/anaconda3/bin/activate py37
														
 
															-
														
 
															-
														
 
															 make_origin_data() {
														
 
															   local step_start_time=$(date +%s)
														
--- a/ad/model_predict_analyse.py
+++ b/ad/model_predict_analyse.py
@@ -8,7 +8,8 @@ from hdfs import InsecureClient
 
															 client = InsecureClient("http://master-1-1.c-7f31a3eea195cb73.cn-hangzhou.emr.aliyuncs.com:9870", user="spark")
														
 
															-SEGMENT_BASE_PATH = "/dw/recommend/model/36_score_calibration_file"
														
 
															+SEGMENT_BASE_PATH = os.environ.get("SEGMENT_BASE_PATH", "/dw/recommend/model/36_score_calibration_file")
														
 
															+PREDICT_CACHE_PATH = os.environ.get("PREDICT_CACHE_PATH", "/root/zhaohp/XGB/predict_cache")
														
 
															 def read_predict_from_local_txt(txt_file) -> list:
														
@@ -81,10 +82,7 @@ def segment_calc_diff_rate_by_score(df: pd.DataFrame, segment_file_path: str, st
 
															         segment_score_avg=('score', 'mean'),
														
 
															     ).reset_index()
														
 
															     group_df['segment_true_score'] = group_df['segment_label_sum'] / group_df['segment_label_cnt']
														
 
															-    group_df['segment_diff_rate_origin'] = (group_df['segment_score_avg'] / group_df['segment_true_score'] - 1).mask(group_df['segment_true_score'] == 0, 0)
														
 
															-
														
 
															-    # 使用滑动窗口计算当前值以及上下两行的平均值，作为新的diff_rate
														
 
															-    group_df['segment_diff_rate'] = group_df['segment_diff_rate_origin'].rolling(window=5, center=True, min_periods=1).mean()
														
 
															+    group_df['segment_diff_rate'] = (group_df['segment_score_avg'] / group_df['segment_true_score'] - 1).mask(group_df['segment_true_score'] == 0, 0)
														
 
															     # 完整的分段文件保存
														
 
															     csv_data = group_df.to_csv(sep="\t", index=False)
														
@@ -100,7 +98,7 @@ def segment_calc_diff_rate_by_score(df: pd.DataFrame, segment_file_path: str, st
 
															     return merged_df, filtered_df
														
 
															-def read_and_calibration_predict(predict_path: str, step=100) -> [pd.DataFrame, pd.DataFrame]:
														
 
															+def read_and_calibration_predict(predict_path: str, step=100) -> [pd.DataFrame, pd.DataFrame, pd.DataFrame]:
														
 
															     """
														
 
															     读取评估结果，并进行校准
														
 
															     """
														
@@ -127,12 +125,26 @@ def read_and_calibration_predict(predict_path: str, step=100) -> [pd.DataFrame,
 
															     ).reset_index()
														
 
															     grouped_df['true_ctcvr'] = grouped_df['conv'] / grouped_df['view']
														
 
															-    return grouped_df, segment_df
														
 
															+    return df, grouped_df, segment_df
														
 
															+
														
 
															+
														
 
															+def predict_local_save_for_auc(old_df: pd.DataFrame, new_df: pd.DataFrame):
														
 
															+    """
														
 
															+    本地保存一份评估结果, 计算AUC使用
														
 
															+    """
														
 
															+    d = {"old": old_df, "new": new_df}
														
 
															+    for key in d:
														
 
															+        df = d[key][['label', "score"]]
														
 
															+        df.to_csv(f"{PREDICT_CACHE_PATH}/{key}_1.csv", index=False, header=False)
														
 
															+        df = d[key][['label', "score_2"]]
														
 
															+        df.to_csv(f"{PREDICT_CACHE_PATH}/{key}_2.csv", index=False, header=False)
														
 
															 def _main(old_predict_path: str, new_predict_path: str, calibration_file: str, analyse_file: str):
														
 
															-    old_group_df, old_segment_df = read_and_calibration_predict(old_predict_path)
														
 
															-    new_group_df, new_segment_df = read_and_calibration_predict(new_predict_path)
														
 
															+    old_df, old_group_df, old_segment_df = read_and_calibration_predict(old_predict_path)
														
 
															+    new_df, new_group_df, new_segment_df = read_and_calibration_predict(new_predict_path)
														
 
															+
														
 
															+    predict_local_save_for_auc(old_df, new_df)
														
 
															     # 分段文件保存, 此处保留的最后使用的分段文件，不是所有的分段
														
 
															     new_segment_df.to_csv(calibration_file, sep='\t', index=False, header=False)
														
--- a/src/main/scala/com/aliyun/odps/spark/examples/makedata_ad/v20240718/makedata_ad_34_statistics_20241111.scala
+++ b/src/main/scala/com/aliyun/odps/spark/examples/makedata_ad/v20240718/makedata_ad_34_statistics_20241111.scala
@@ -0,0 +1,24 @@
 
															+package src.main.scala.com.aliyun.odps.spark.examples.makedata_ad.v20240718
														
 
															+
														
 
															+import com.aliyun.odps.spark.examples.myUtils.ParamUtils
														
 
															+import org.apache.spark.sql.SparkSession
														
 
															+
														
 
															+/**
														
 
															+ * 附件生产
														
 
															+ * <br >
														
 
															+ * 1. 按CID维度汇总，曝光总量，转化量等信息
														
 
															+ */
														
 
															+object makedata_ad_34_statistic_20241111 {
														
 
															+  def main(args: Array[String]): Unit = {
														
 
															+
														
 
															+    val spark = SparkSession
														
 
															+      .builder()
														
 
															+      .appName(this.getClass.getName)
														
 
															+      .getOrCreate();
														
 
															+    val sc =  spark.sparkContext
														
 
															+    val loader = getClass.getClassLoader
														
 
															+
														
 
															+    val param = ParamUtils.parseArgs(args)
														
 
															+
														
 
															+  }
														
 
															+}