5 months ago · ee9f1686e6
--- a/XGB/check_data.py
+++ b/XGB/check_data.py
@@ -1,65 +0,0 @@
 
															-# import pandas as pd
														
 
															-#
														
 
															-# old_date_train = f"/Users/zhao/Desktop/Code/Python/model_monitor/XGB/data/all/20241012_predict.csv"
														
 
															-# new_date_train = f"/Users/zhao/Desktop/Code/Python/model_monitor/XGB/20241012_predict_1.csv"
														
 
															-#
														
 
															-# # 读取两个 CSV 文件
														
 
															-# old_df = pd.read_csv(old_date_train)
														
 
															-# new_df = pd.read_csv(new_date_train)
														
 
															-#
														
 
															-# if old_df.shape[0] != new_df.shape[0]:
														
 
															-#     print(f"新老训练数据集长度不一样 新数据集: {new_df.shape[0]}, 老数据集: {old_df.shape[0]}")
														
 
															-#
														
 
															-# old_df_col = old_df.columns
														
 
															-# new_df_col = new_df.columns
														
 
															-# if len(old_df_col) != len(new_df_col):
														
 
															-#     print(f"两个文件列数不一样 新文件: {new_df_col}, 老文件: {old_df_col}")
														
 
															-#
														
 
															-# for col in old_df_col:
														
 
															-#     if col not in new_df_col:
														
 
															-#         print(f"列 {col} 在老文件存在，新文件不存在")
														
 
															-#
														
 
															-# for col in new_df_col:
														
 
															-#     if col not in old_df_col:
														
 
															-#         print(f"列 {col} 在新文件存在，老文件不存在")
														
 
															-#
														
 
															-# old_df.set_index("vid", inplace=True)
														
 
															-# new_df.set_index("vid", inplace=True)
														
 
															-#
														
 
															-# old_dict = old_df.to_dict(orient="index")
														
 
															-# new_dict = new_df.to_dict(orient="index")
														
 
															-#
														
 
															-# for e in new_dict:
														
 
															-#     if e not in old_dict:
														
 
															-#         print(f"vid {e} 在新文件中存在，在老文件中不存在")
														
 
															-#     new_row = new_dict[e]
														
 
															-#     old_row = old_dict[e]
														
 
															-#     for col in new_df_col:
														
 
															-#         if col in ['vid', '曝光占比', '分子', '分母', 'label']:
														
 
															-#             continue
														
 
															-#         if col not in old_row:
														
 
															-#             print(f"vid {e} 的列 {col} 在老文件中不存在")
														
 
															-#             continue
														
 
															-#         # if col in new_row:
														
 
															-#         #     print(f"vid {e} 的列 {col} 在新文件中不存在")
														
 
															-#         #     continue
														
 
															-#         if old_row[col] != new_row[col]:
														
 
															-#             print(f"vid {e} 列 {col} 的值在新老文件不一样, 新文件的值: {new_row[col]}, 老文件的值: {old_row[col]}")
														
 
															-#
														
 
															-# # z_vid = set()
														
 
															-# # with open("/Users/zhao/Desktop/Code/Python/rov-offline/write_redis/filtered_vid", "r") as f:
														
 
															-# #     for line in f:
														
 
															-# #         z_vid.add(line.replace("\n", ""))
														
 
															-# #
														
 
															-# # p_vid = set()
														
 
															-# # with open("./filtered_vid.txt", "r") as f:
														
 
															-# #     for line in f:
														
 
															-# #         p_vid.add(line.replace("\n", ""))
														
 
															-# #
														
 
															-# # for e in z_vid:
														
 
															-# #     if e not in p_vid:
														
 
															-# #         print(f"VID: {e} 离线预测有，在线预测没有")
														
 
															-# #
														
 
															-# # for e in p_vid:
														
 
															-# #     if e not in z_vid:
														
 
															-# #         print(f"VID: {e} 在线预测有，离线预测没有")
														
--- a/XGB/file/readme.txt
+++ b/XGB/file/readme.txt
@@ -1 +0,0 @@
 
															-用于存放XGB模型的一些过程文件
														
--- a/XGB/vov_xgboost_train.py
+++ b/XGB/vov_xgboost_train.py
@@ -1,446 +0,0 @@
 
															-import concurrent.futures
														
 
															-import json
														
 
															-import logging
														
 
															-from datetime import datetime, timedelta
														
 
															-
														
 
															-import numpy as np
														
 
															-import pandas as pd
														
 
															-import xgboost as xgb
														
 
															-
														
 
															-from client import ODPSClient
														
 
															-from config import ConfigManager
														
 
															-from util import feishu_inform_util
														
 
															-
														
 
															-odps_client = ODPSClient.ODPSClient()
														
 
															-config_manager = ConfigManager.ConfigManager()
														
 
															-
														
 
															-features_name = ['1_vov0', '2_vov0', '3_vov0', '4_vov0', '5_vov0', '2_vov01', '3_vov01', '4_vov01', '5_vov01',
														
 
															-                 '3_vov012', '4_vov012', '5_vov012', "12_change", "23_change", "34_change", '2_vov01', '3_vov01',
														
 
															-                 '4_vov01', '5_vov01', '3_vov012', '4_vov012', '5_vov012']
														
 
															-
														
 
															-column_names = ['曝光占比', 'vov0', '分子', '分母', '1_vov0', '2_vov0', '3_vov0', '4_vov0', '5_vov0', '2_vov01',
														
 
															-                '3_vov01', '4_vov01', '5_vov01', '3_vov012', '4_vov012', '5_vov012', '1_vov0_分子', '1_vov0_分母',
														
 
															-                '2_vov0_分子', '2_vov0_分母', '3_vov0_分子', '3_vov0_分母', '4_vov0_分子', '4_vov0_分母',
														
 
															-                '5_vov0_分子', '5_vov0_分母', '2_vov01_分子', '2_vov01_分母', '3_vov01_分子', '3_vov01_分母',
														
 
															-                '4_vov01_分子', '4_vov01_分母', '5_vov01_分子', '5_vov01_分母', '3_vov012_分子', '3_vov012_分母',
														
 
															-                '4_vov012_分子', '4_vov012_分母', '5_vov012_分子', '5_vov012_分母']
														
 
															-
														
 
															-# 创建一个logger
														
 
															-logger = logging.getLogger("vov_xgboost_train.py")
														
 
															-logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
														
 
															-
														
 
															-
														
 
															-def get_partition_df(table, dt):
														
 
															-    logger.info(f"开始下载: {table} -- {dt} 的数据")
														
 
															-
														
 
															-    download_session = odps_client.get_download_session(table, dt)
														
 
															-    logger.info(f"表: {table} 中的分区 {dt}, 共有 {download_session.count} 条数据")
														
 
															-
														
 
															-    with download_session.open_arrow_reader(0, download_session.count) as reader:
														
 
															-        # 将所有数据加载到 DataFrame 中
														
 
															-        df = pd.concat([batch.to_pandas() for batch in reader])
														
 
															-
														
 
															-    logger.info(f"下载结束: {table} -- {dt} 的数据, 共计 {df.shape[0]} 条数据")
														
 
															-    return df
														
 
															-
														
 
															-
														
 
															-def fetch_label_data(label_datetime: datetime):
														
 
															-    """
														
 
															-    获取 label数据
														
 
															-    :return:
														
 
															-    """
														
 
															-    label_dt = label_datetime.strftime("%Y%m%d")
														
 
															-    logger.info(f"fetch_label_data.dt: {label_dt}")
														
 
															-
														
 
															-    # 获取数据
														
 
															-    label_df = get_partition_df("alg_vid_vov_new", label_dt)
														
 
															-    extracted_data = [
														
 
															-        {
														
 
															-            'vid': int(row['vid']),
														
 
															-        }
														
 
															-        for _, row in label_df.iterrows()
														
 
															-    ]
														
 
															-    # 构造新的 DataFrame
														
 
															-    applied_df = pd.DataFrame(extracted_data)
														
 
															-    # 添加 title 列
														
 
															-    applied_df['title'] = "title"
														
 
															-
														
 
															-    return applied_df
														
 
															-
														
 
															-
														
 
															-def fetch_view_rate_data(view_date: datetime):
														
 
															-    """
														
 
															-    获取曝光数据
														
 
															-    :return:
														
 
															-    """
														
 
															-    view_rate_dt = view_date.strftime("%Y%m%d")
														
 
															-    logger.info(f"fetch_view_rate_date.dt: {view_rate_dt}")
														
 
															-    try:
														
 
															-        # 获取数据
														
 
															-        view_rate_df = get_partition_df("alg_vid_vov_new", view_rate_dt)
														
 
															-        extracted_data = [
														
 
															-            {
														
 
															-                'vid': int(row['vid']),
														
 
															-                '分母': int(feature['1_vov0_分母']),
														
 
															-                '分子': feature['1_vov0_分子'],
														
 
															-                'vov0': feature['1_vov0']
														
 
															-            }
														
 
															-            for _, row in view_rate_df.iterrows()
														
 
															-            if (feature := json.loads(row['feature']))
														
 
															-        ]
														
 
															-        # 构造新的 DataFrame
														
 
															-        applied_df = pd.DataFrame(extracted_data)
														
 
															-        # 计算曝光占比，矢量化操作
														
 
															-        view_sum = applied_df['分母'].sum()
														
 
															-        applied_df['曝光占比'] = applied_df['分母'] / view_sum
														
 
															-
														
 
															-        return applied_df
														
 
															-    except Exception as e:
														
 
															-        return pd.DataFrame({
														
 
															-            "vid": [-1],
														
 
															-            "分母": [0],
														
 
															-            "分子": [0],
														
 
															-            "vov0": [0],
														
 
															-            "曝光占比": [0]
														
 
															-        })
														
 
															-
														
 
															-
														
 
															-def fetch_feature_data_dt(dt: str, index):
														
 
															-    """
														
 
															-    查询某一天的特征数据，方便做特征数据时并行处理
														
 
															-    :param dt:
														
 
															-    :param index:
														
 
															-    :return:
														
 
															-    """
														
 
															-
														
 
															-    logger.info(f"fetch_feature_data_dt.dt -- {dt} 的数据")
														
 
															-
														
 
															-    df = get_partition_df("videoid_vov_base_data", dt).fillna(0)
														
 
															-
														
 
															-    today_dist_view_pv = df['today_dist_view_pv'].astype(int)
														
 
															-    today_return_to_dist_view_pv = df['today_return_to_dist_view_pv'].astype(int)
														
 
															-    day1_return_to_dist_view_pv = df['day1_return_to_dist_view_pv'].astype(int)
														
 
															-    day2_return_to_dist_view_pv = df['day2_return_to_dist_view_pv'].astype(int)
														
 
															-
														
 
															-    # all_return_to_dist_view_pv
														
 
															-    t_1_all_return_to_dist_view_pv = today_return_to_dist_view_pv + day1_return_to_dist_view_pv
														
 
															-    t_2_all_return_to_dist_view_pv = t_1_all_return_to_dist_view_pv + day2_return_to_dist_view_pv
														
 
															-
														
 
															-    # all_vov
														
 
															-    t_0_all_vov = today_return_to_dist_view_pv / today_dist_view_pv.where(today_dist_view_pv > 0, 1)
														
 
															-    t_0_all_vov = t_0_all_vov.where(today_dist_view_pv > 0, 0)
														
 
															-
														
 
															-    t_1_all_vov = t_1_all_return_to_dist_view_pv / today_dist_view_pv.where(today_dist_view_pv > 0, 1)
														
 
															-    t_1_all_vov = t_1_all_vov.where(today_dist_view_pv > 0, 0)
														
 
															-
														
 
															-    t_2_all_vov = t_2_all_return_to_dist_view_pv / today_dist_view_pv.where(today_dist_view_pv > 0, 1)
														
 
															-    t_2_all_vov = t_2_all_vov.where(today_dist_view_pv > 0, 0)
														
 
															-
														
 
															-    # 构造结果DataFrame
														
 
															-    result_df = pd.DataFrame({
														
 
															-        'vid': df['videoid'],
														
 
															-
														
 
															-        f'{index}_vov0': t_0_all_vov,
														
 
															-        f'{index}_vov0_分子': today_return_to_dist_view_pv,
														
 
															-        f'{index}_vov0_分母': today_dist_view_pv,
														
 
															-
														
 
															-        f'{index}_vov01': t_1_all_vov,
														
 
															-        f'{index}_vov01_分子': t_1_all_return_to_dist_view_pv,
														
 
															-        f'{index}_vov01_分母': today_dist_view_pv,
														
 
															-
														
 
															-        f'{index}_vov012': t_2_all_vov,
														
 
															-        f'{index}_vov012_分子': t_2_all_return_to_dist_view_pv,
														
 
															-        f'{index}_vov012_分母': today_dist_view_pv,
														
 
															-    })
														
 
															-    logger.info(f"完成处理 videoid_vov_base_data -- {dt} 的数据")
														
 
															-
														
 
															-    return result_df
														
 
															-
														
 
															-
														
 
															-def fetch_feature_data(t_1_datetime: datetime):
														
 
															-    """
														
 
															-    获取feature数据
														
 
															-    :return:
														
 
															-    """
														
 
															-
														
 
															-    with concurrent.futures.ThreadPoolExecutor(5) as executor:
														
 
															-        t_1_feature_task = executor.submit(
														
 
															-            fetch_feature_data_dt, t_1_datetime.strftime("%Y%m%d"), 1
														
 
															-        )
														
 
															-        t_2_datetime = t_1_datetime - timedelta(days=1)
														
 
															-        t_2_feature_task = executor.submit(
														
 
															-            fetch_feature_data_dt, t_2_datetime.strftime("%Y%m%d"), 2
														
 
															-        )
														
 
															-        t_3_datetime = t_1_datetime - timedelta(days=2)
														
 
															-        t_3_feature_task = executor.submit(
														
 
															-            fetch_feature_data_dt, t_3_datetime.strftime("%Y%m%d"), 3
														
 
															-        )
														
 
															-        t_4_datetime = t_1_datetime - timedelta(days=3)
														
 
															-        t_4_feature_task = executor.submit(
														
 
															-            fetch_feature_data_dt, t_4_datetime.strftime("%Y%m%d"), 4
														
 
															-        )
														
 
															-        t_5_datetime = t_1_datetime - timedelta(days=4)
														
 
															-        t_5_feature_task = executor.submit(
														
 
															-            fetch_feature_data_dt, t_5_datetime.strftime("%Y%m%d"), 5
														
 
															-        )
														
 
															-
														
 
															-        logger.info(
														
 
															-            f"fetch_feature_data:"
														
 
															-            f"\t t_1_feature_task.datetime: {t_1_datetime.strftime('%Y%m%d')}"
														
 
															-            f"\t t_2_feature_task.datetime: {t_2_datetime.strftime('%Y%m%d')}"
														
 
															-            f"\t t_3_feature_task.datetime: {t_3_datetime.strftime('%Y%m%d')}"
														
 
															-            f"\t t_4_feature_task.datetime: {t_4_datetime.strftime('%Y%m%d')}"
														
 
															-            f"\t t_5_feature_task.datetime: {t_5_datetime.strftime('%Y%m%d')}"
														
 
															-        )
														
 
															-
														
 
															-        t_1_feature = t_1_feature_task.result()
														
 
															-        t_2_feature = t_2_feature_task.result()
														
 
															-        t_3_feature = t_3_feature_task.result()
														
 
															-        t_4_feature = t_4_feature_task.result()
														
 
															-        t_5_feature = t_5_feature_task.result()
														
 
															-
														
 
															-        t_1_feature = t_1_feature[['vid', "1_vov0", "1_vov0_分子", "1_vov0_分母"]]
														
 
															-        t_2_feature = t_2_feature[
														
 
															-            ['vid', "2_vov0", "2_vov0_分子", "2_vov0_分母", "2_vov01", "2_vov01_分子", "2_vov01_分母"]
														
 
															-        ]
														
 
															-
														
 
															-    return t_1_feature, t_2_feature, t_3_feature, t_4_feature, t_5_feature
														
 
															-
														
 
															-
														
 
															-def fetch_data(label_datetime: datetime, feature_start_datetime: datetime, view_rate_datetime: datetime):
														
 
															-    with concurrent.futures.ThreadPoolExecutor(3) as executor:
														
 
															-        label_future = executor.submit(fetch_label_data, label_datetime)
														
 
															-        feature_future = executor.submit(fetch_feature_data, feature_start_datetime)
														
 
															-        view_rate_future = executor.submit(fetch_view_rate_data, view_rate_datetime)
														
 
															-
														
 
															-        label_apply_df = label_future.result()
														
 
															-        t_1_feature, t_2_feature, t_3_feature, t_4_feature, t_5_feature = feature_future.result()
														
 
															-        view_rate = view_rate_future.result()
														
 
															-
														
 
															-        df = (pd.merge(label_apply_df, view_rate, on="vid", how='left')
														
 
															-              .merge(t_1_feature, on="vid", how='left')
														
 
															-              .merge(t_2_feature, on="vid", how='left')
														
 
															-              .merge(t_3_feature, on="vid", how='left')
														
 
															-              .merge(t_4_feature, on="vid", how='left')
														
 
															-              .merge(t_5_feature, on="vid", how='left')
														
 
															-              )
														
 
															-        df.fillna(0, inplace=True)
														
 
															-        df.sort_values(by=['曝光占比'], ascending=False, inplace=True)
														
 
															-
														
 
															-        for col in column_names:
														
 
															-            df[col] = pd.to_numeric(df[col], errors='coerce')
														
 
															-
														
 
															-        df["12_change"] = df["1_vov0"] - df["2_vov0"]
														
 
															-        df["23_change"] = df["2_vov0"] - df["3_vov0"]
														
 
															-        df["34_change"] = df["3_vov0"] - df["4_vov0"]
														
 
															-
														
 
															-        df["label"] = df["vov0"].apply(lambda x: 1 if x > 0.25 else 0)
														
 
															-
														
 
															-    return df
														
 
															-
														
 
															-
														
 
															-def xgb_train_multi_dt_data(t_1_label_dt: datetime):
														
 
															-    """
														
 
															-    XGB模型多天训练数据
														
 
															-    :param t_1_label_dt:
														
 
															-    :return:
														
 
															-    """
														
 
															-    with concurrent.futures.ThreadPoolExecutor(3) as executor:
														
 
															-        t_1_feature_dt = t_1_label_dt - timedelta(2)
														
 
															-        logger.info(
														
 
															-            f"VOV模型特征数据处理 --- t_1_label_future:"
														
 
															-            f"\t label_datetime: {t_1_label_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t feature_datetime: {t_1_feature_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t view_rate_datetime: {t_1_label_dt.strftime('%Y%m%d')} "
														
 
															-        )
														
 
															-        t_1_label_future = executor.submit(fetch_data, t_1_label_dt, t_1_feature_dt, t_1_label_dt)
														
 
															-
														
 
															-        t_2_label_dt = t_1_label_dt - timedelta(1)
														
 
															-        t_2_feature_dt = t_2_label_dt - timedelta(1)
														
 
															-        logger.info(
														
 
															-            f"VOV模型特征数据处理 --- t_2_label_future:"
														
 
															-            f"\t label_datetime: {t_2_label_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t feature_datetime: {t_2_feature_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t view_rate_datetime: {t_2_label_dt.strftime('%Y%m%d')} "
														
 
															-        )
														
 
															-        t_2_label_future = executor.submit(fetch_data, t_2_label_dt, t_2_feature_dt, t_2_label_dt)
														
 
															-
														
 
															-        t_3_label_dt = t_1_label_dt - timedelta(2)
														
 
															-        t_3_feature_dt = t_3_label_dt - timedelta(1)
														
 
															-        logger.info(
														
 
															-            f"VOV模型特征数据处理 --- t_3_label_future:"
														
 
															-            f"\t label_datetime: {t_3_label_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t feature_datetime: {t_3_feature_dt.strftime('%Y%m%d')} "
														
 
															-            f"\t view_rate_datetime: {t_3_label_dt.strftime('%Y%m%d')} "
														
 
															-        )
														
 
															-        t_3_label_future = executor.submit(fetch_data, t_3_label_dt, t_3_feature_dt, t_3_label_dt)
														
 
															-
														
 
															-        t_1_label_df = t_1_label_future.result()
														
 
															-        t_2_label_df = t_2_label_future.result()
														
 
															-        t_3_label_df = t_3_label_future.result()
														
 
															-
														
 
															-    return pd.concat([t_1_label_df, t_2_label_df, t_3_label_df], ignore_index=True)
														
 
															-
														
 
															-
														
 
															-def xgb_predict_dt_data(label_datetime: datetime):
														
 
															-    """
														
 
															-    获取预估数据
														
 
															-    :param label_datetime:
														
 
															-    :return:
														
 
															-    """
														
 
															-    feature_start_datetime = label_datetime
														
 
															-    view_rate_datetime = label_datetime + timedelta(2)
														
 
															-    logger.info(
														
 
															-        f"VOV模型预测数据处理 --- predict_df: "
														
 
															-        f"\t label_datetime: {label_datetime.strftime('%Y%m%d')} "
														
 
															-        f"\t feature_datetime: {feature_start_datetime.strftime('%Y%m%d')} "
														
 
															-        f"\t view_rate_datetime: {view_rate_datetime.strftime('%Y%m%d')} "
														
 
															-    )
														
 
															-    return fetch_data(label_datetime, feature_start_datetime, view_rate_datetime)
														
 
															-
														
 
															-
														
 
															-def _main():
														
 
															-    logger.info(f"XGB模型训练")
														
 
															-    train_df = xgb_train_multi_dt_data((datetime.now() - timedelta(days=4)))
														
 
															-    trains_array = train_df[features_name].values
														
 
															-    trains_label_array = train_df['label'].values
														
 
															-
														
 
															-    logger.info(f"特征获取完成，开始训练。 训练使用的数据量: {train_df.shape[0]}")
														
 
															-    model = xgb.XGBClassifier(
														
 
															-        n_estimators=1000,
														
 
															-        learning_rate=0.01,
														
 
															-        max_depth=5,
														
 
															-        min_child_weight=1,
														
 
															-        gamma=0,
														
 
															-        subsample=0.8,
														
 
															-        colsample_bytree=0.8,
														
 
															-        objective='binary:logistic',
														
 
															-        nthread=8,
														
 
															-        scale_pos_weight=1,
														
 
															-        random_state=2024,
														
 
															-        seed=2024,
														
 
															-    )
														
 
															-    model.fit(trains_array, trains_label_array)
														
 
															-
														
 
															-    logger.info("获取评测数据")
														
 
															-    predict_df = xgb_predict_dt_data((datetime.now() - timedelta(days=3)))
														
 
															-    tests_array = predict_df[features_name].values
														
 
															-    y_pred = model.predict_proba(tests_array)[:, 1]
														
 
															-    predict_df["y_pred"] = y_pred
														
 
															-    condition_choose = (
														
 
															-            (predict_df['y_pred'] <= 0.1) &
														
 
															-            (
														
 
															-                    (predict_df['2_vov0_分母'] > 50) |
														
 
															-                    (predict_df['3_vov0_分母'] > 50) |
														
 
															-                    (predict_df['4_vov0_分母'] > 50)
														
 
															-            ) &
														
 
															-            (
														
 
															-                (predict_df['1_vov0'] - predict_df['2_vov0'] < 0.1)
														
 
															-            )
														
 
															-    )
														
 
															-    profit_threshold = 0.3
														
 
															-    condition_choose_real = condition_choose & (predict_df['vov0'] <= profit_threshold)
														
 
															-    predict_df["condition_choose"] = condition_choose
														
 
															-    predict_df[["vid", "曝光占比", "vov0", "condition_choose"]].to_csv(
														
 
															-        f"{config_manager.project_home}/XGB/file/new_" + (datetime.now() - timedelta(days=1)).strftime("%Y%m%d"),
														
 
															-        sep="\t",
														
 
															-        index=False
														
 
															-    )
														
 
															-
														
 
															-    choose_bad = condition_choose.sum()
														
 
															-    choose_bad_real_bad = condition_choose_real.sum()
														
 
															-    acc = choose_bad_real_bad / choose_bad
														
 
															-    logger.info(
														
 
															-        f"acc:{acc} "
														
 
															-        f"分子={choose_bad_real_bad} "
														
 
															-        f"分母={choose_bad} "
														
 
															-        f"总视频数={predict_df.shape[0]} "
														
 
															-        f"盈利计算标注vov0大于:{profit_threshold}"
														
 
															-    )
														
 
															-
														
 
															-    surface = predict_df.loc[condition_choose, '曝光占比'].sum()
														
 
															-    surface_income = predict_df.loc[condition_choose_real, '曝光占比'].sum()
														
 
															-    logger.info(
														
 
															-        f"总影响面:{round(surface, 6)} "
														
 
															-        f"盈利影响面:{round(surface_income, 6)} "
														
 
															-        f"亏损影响面:{round(surface - surface_income, 6)}"
														
 
															-    )
														
 
															-
														
 
															-    predict_df["profit_loss_value"] = predict_df['分母'] * (predict_df['vov0'] - profit_threshold)
														
 
															-    profit_loss_value = predict_df.loc[condition_choose, 'profit_loss_value'].sum()
														
 
															-    profit_value = predict_df.loc[condition_choose_real, 'profit_loss_value'].sum()
														
 
															-    logger.info(
														
 
															-        f"总盈亏:{round(profit_loss_value, 1)} "
														
 
															-        f"纯盈利:{round(profit_value, 1)} "
														
 
															-        f"纯亏损:{round(profit_loss_value - profit_value, 1)} "
														
 
															-        f"盈利效率:{round(profit_loss_value / profit_value, 6)}"
														
 
															-    )
														
 
															-
														
 
															-    filtered_vid = predict_df.loc[condition_choose, 'vid'].unique()
														
 
															-
														
 
															-    # 写入本地文件
														
 
															-    np.savetxt(
														
 
															-        f"{config_manager.project_home}/XGB/file/filtered_vid_{datetime.now().strftime('%Y%m%d')}.csv",
														
 
															-        filtered_vid,
														
 
															-        fmt="%d",
														
 
															-        delimiter=","
														
 
															-    )
														
 
															-
														
 
															-    # 写入Redis
														
 
															-    # redis_key = f"redis:lower_vov_vid:{datetime.now().strftime('%Y%m%d')}"
														
 
															-    #
														
 
															-    # logger.info(f"当前环境为: {config_manager.get_env()}, 要写入的Redis Key为: {redis_key}")
														
 
															-    # host, port, password = config_manager.get_algorithm_redis_info()
														
 
															-    # alg_redis = RedisHelper.RedisHelper(host=host, port=port, password=password)
														
 
															-    # for vid in filtered_vid.tolist():
														
 
															-    #     alg_redis.add_number_to_set(redis_key, vid)
														
 
															-    #
														
 
															-    # alg_redis.set_expire(redis_key, 86400)
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    card_json = {
														
 
															-        "config": {},
														
 
															-        "i18n_elements": {
														
 
															-            "zh_cn": [
														
 
															-                {
														
 
															-                    "tag": "markdown",
														
 
															-                    "content": "",
														
 
															-                    "text_align": "left",
														
 
															-                    "text_size": "normal"
														
 
															-                }
														
 
															-            ]
														
 
															-        },
														
 
															-        "i18n_header": {
														
 
															-            "zh_cn": {
														
 
															-                "title": {
														
 
															-                    "tag": "plain_text",
														
 
															-                    "content": "XGB模型训练预测完成"
														
 
															-                },
														
 
															-                "template": "turquoise"
														
 
															-            }
														
 
															-        }
														
 
															-    }
														
 
															-
														
 
															-    try:
														
 
															-        _main()
														
 
															-
														
 
															-        msg_text = f"\n- 所属项目: model_monitor" \
														
 
															-                   f"\n- 所属环境: {config_manager.get_env()}" \
														
 
															-                   f"\n- 告警描述: VOV预测模型训练和预测完成, 用于低VOV视频过滤"
														
 
															-        card_json['i18n_elements']['zh_cn'][0]['content'] = msg_text
														
 
															-
														
 
															-    except Exception as e:
														
 
															-        logger.error("VOV过滤XGB模型训练异常: ", e)
														
 
															-        msg_text = f"\n- 所属项目: model_monitor" \
														
 
															-                   f"\n- 所属环境: {config_manager.get_env()}" \
														
 
															-                   f"\n- 告警描述: VOV预测模型训练和预测失败, 用于低VOV视频过滤"
														
 
															-        card_json['i18n_header']['zh_cn']['template'] = "red"
														
 
															-        card_json['i18n_header']['zh_cn']["title"]['content'] = "XGB模型训练预测失败"
														
 
															-        card_json['i18n_elements']['zh_cn'][0]['content'] = msg_text
														
 
															-    if config_manager.get_env() == "pro":
														
 
															-        # 发送通知
														
 
															-        feishu_inform_util.send_card_msg_to_feishu(
														
 
															-            webhook=config_manager.get_vov_model_inform_feishu_webhook(),
														
 
															-            card_json=card_json
														
 
															-        )
														
--- a/client/SLSClient.py
+++ b/client/SLSClient.py
@@ -0,0 +1,4 @@
 
															+
														
 
															+class SLSClient(object):
														
 
															+    def __init__(self):
														
 
															+        pass
														
--- a/helper/RedisHelper.py
+++ b/helper/RedisHelper.py
@@ -33,6 +33,10 @@ class RedisHelper(object):
 
															         logger.info(f"Redis Delete: {key}")
														
 
															         self.redis_conn.delete(key)
														
 
															+    def batch_delete(self, *keys):
														
 
															+        logger.info(f"Redis Batch Delete: {keys}")
														
 
															+        self.redis_conn.delete(*keys)
														
 
															+
														
 
															     def m_get_pipeline(self, keys):
														
 
															         pipeline = self.redis_conn.pipeline()
														
 
															         for key in keys:
														
--- a/model/XGBModel.py
+++ b/model/XGBModel.py
@@ -1,35 +0,0 @@
 
															-import numpy as np
														
 
															-import xgboost as xgb
														
 
															-
														
 
															-
														
 
															-class XGBModel(object):
														
 
															-    def __init__(self, model_file, features: list):
														
 
															-        self.model_file = model_file
														
 
															-        self.model = xgb.Booster(model_file=model_file)
														
 
															-        self.features = features
														
 
															-
														
 
															-    def predict(self, feature_map: dict) -> float:
														
 
															-        values = np.array([
														
 
															-            float(feature_map.get(feature, 0.0))
														
 
															-            for feature in self.features
														
 
															-        ])
														
 
															-
														
 
															-        dm = xgb.DMatrix(values.reshape(1, -1), missing=0.0)
														
 
															-        return float(self.model.predict(dm, output_margin=False)[0])
														
 
															-
														
 
															-    def feature_weight_importance(self):
														
 
															-        return self.feature_importance("weight")
														
 
															-
														
 
															-    def feature_cover_importance(self):
														
 
															-        return self.feature_importance("cover")
														
 
															-
														
 
															-    def feature_gain_importance(self):
														
 
															-        return self.feature_importance("gain")
														
 
															-
														
 
															-    def feature_importance(self, importance_type: str):
														
 
															-        importance_map = {}
														
 
															-        score_map = self.model.get_score(importance_type=importance_type)
														
 
															-        for key in score_map:
														
 
															-            k = self.features[int(key[1:])]
														
 
															-            importance_map[k] = score_map[key]
														
 
															-        return importance_map
														
--- a/model/__init__.py
+++ b/model/__init__.py
--- a/model/crowd_choose_offline_check.py
+++ b/model/crowd_choose_offline_check.py
@@ -1,245 +0,0 @@
 
															-# This is a sample Python script.
														
 
															-
														
 
															-# Press ⌃R to execute it or replace it with your code.
														
 
															-# Press Double ⇧ to search everywhere for classes, files, tool windows, actions, and settings.
														
 
															-import hashlib
														
 
															-import json
														
 
															-import os
														
 
															-import subprocess
														
 
															-import time
														
 
															-import traceback
														
 
															-import urllib
														
 
															-import datetime
														
 
															-import requests
														
 
															-import pymysql
														
 
															-from contextlib import contextmanager
														
 
															-
														
 
															-from sqlalchemy import create_engine, Numeric, Float
														
 
															-from sqlalchemy.orm import sessionmaker
														
 
															-from sqlalchemy.ext.declarative import declarative_base
														
 
															-from sqlalchemy import Column, Integer, String, DateTime, Text
														
 
															-import ssl
														
 
															-ssl._create_default_https_context = ssl._create_unverified_context
														
 
															-HOST = 'rm-bp1nx318263k95yo3318.mysql.rds.aliyuncs.com'
														
 
															-PORT = '3306'
														
 
															-DATABASE = 'uservideo_bi'
														
 
															-USERNAME = 'majin'
														
 
															-PASSWORD = 'E5d2c960fdf3f5f0be5a27eea2f906ef'
														
 
															-DB_URI = "mysql+pymysql://{username}:{password}@{host}:{port}/{db}?charset=utf8".format(username=USERNAME,
														
 
															-                                                                                            password=PASSWORD,
														
 
															-                                                                                            host=HOST, port=PORT,
														
 
															-                                                                                            db=DATABASE)
														
 
															-
														
 
															-# HOST = 'rm-bp1k5853td1r25g3n690.mysql.rds.aliyuncs.com'
														
 
															-# PORT = '3306'
														
 
															-# DATABASE = 'mpad'
														
 
															-# USERNAME = 'majin'
														
 
															-# PASSWORD = 'e5d2c960fdf3f5f0be5a27eea2f906ef'
														
 
															-# DB_URI = "mysql+pymysql://{username}:{password}@{host}:{port}/{db}?charset=utf8".format(username=USERNAME,
														
 
															-#                                                                                         password=PASSWORD,
														
 
															-#                                                                                         host=HOST, port=PORT,
														
 
															-#                                                                                         db=DATABASE)
														
 
															-
														
 
															-
														
 
															-Base = declarative_base()
														
 
															-
														
 
															-class WECHAT_AD_PUBLISHER_ADUNIT_GENERAL(Base):
														
 
															-    __tablename__ = 'wechat_ad_publisher_adunit_general'
														
 
															-    id = Column(Integer, primary_key=True)
														
 
															-    ad_unit_id = Column(String(1000))
														
 
															-    ad_unit_name = Column(String(1000))
														
 
															-    ad_slot = Column(String(1000))
														
 
															-    click_count = Column(Integer, default=0)
														
 
															-    click_rate = Column(Float, default=0.0)
														
 
															-    date = Column(String(1000))
														
 
															-    ecpm = Column(String(1000))
														
 
															-    exposure_count = Column(Integer, default=0)
														
 
															-    exposure_rate = Column(Float, default=0.0)
														
 
															-    income = Column(Integer, default=0)
														
 
															-    req_succ_count = Column(Integer, default=0)
														
 
															-    app_type = Column(Integer, default=0)
														
 
															-    slot_str = Column(String(1000))
														
 
															-    date_str = Column(String(1000))
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        print(f"AUNIT_GENERAL.init app_type = {self.app_type}, ad_unit_id = {self.ad_unit_id}")
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        return '<WECHAT_AD_PUBLISHER_ADUNIT_GENERAL %r>' % self.ad_unit_id
														
 
															-
														
 
															-class WECHAT_AD_PUBLISHER_ADPOS_GENERAL(Base):
														
 
															-    __tablename__ = 'wechat_ad_publisher_adpos_general'
														
 
															-    id = Column(Integer, primary_key=True)
														
 
															-    ad_slot = Column(String(1000))
														
 
															-    click_count = Column(Integer, default=0)
														
 
															-    click_rate = Column(Float, default=0.0)
														
 
															-    date = Column(String(1000))
														
 
															-    ecpm = Column(String(1000))
														
 
															-    exposure_count = Column(Integer, default=0)
														
 
															-    exposure_rate = Column(Float, default=0.0)
														
 
															-    income = Column(Integer, default=0)
														
 
															-    req_succ_count = Column(Integer, default=0)
														
 
															-    app_type = Column(Integer, default=0)
														
 
															-    slot_str = Column(String(1000))
														
 
															-    date_str = Column(String(1000))
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        print(f"ADPOS_GENERAL.init app_type = {self.app_type}, ad_slot = {self.ad_slot}")
														
 
															-
														
 
															-    def __repr__(self):
														
 
															-        return '<wechat_ad_publisher_adpos_general %r>' % self.ad_slot
														
 
															-
														
 
															-
														
 
															-@contextmanager
														
 
															-def session_maker(session=None, session_factory=None):
														
 
															-    try:
														
 
															-        if session_factory is None:
														
 
															-            engine = create_engine(DB_URI)
														
 
															-            session_factory = sessionmaker(bind=engine)
														
 
															-        if session is None:
														
 
															-            session = session_factory()
														
 
															-        yield session
														
 
															-    except:
														
 
															-        session.rollback()
														
 
															-        raise
														
 
															-    else:
														
 
															-        session.commit()
														
 
															-        # logger.debug('session.commit(){}'.format(session))
														
 
															-    finally:
														
 
															-        session.close()
														
 
															-        # logger.debug('session.close(){}'.format(session))
														
 
															-
														
 
															-def add_ad_data(data, app_type):
														
 
															-    # Use a breakpoint in the code line below to debug your script.
														
 
															-    print(f'Hi, add_ad_data.app_type = {app_type}, data = {data}')  # Press ⌘F8 to toggle the breakpoint.
														
 
															-    stat_item = data['stat_item']
														
 
															-    try:
														
 
															-        with session_maker() as session:
														
 
															-            wechat_ad_publisher_adunit_general = WECHAT_AD_PUBLISHER_ADUNIT_GENERAL()
														
 
															-            wechat_ad_publisher_adunit_general.ad_unit_id = data['ad_unit_id']
														
 
															-            wechat_ad_publisher_adunit_general.ad_unit_name = data['ad_unit_name']
														
 
															-            wechat_ad_publisher_adunit_general.ad_slot = stat_item['ad_slot']
														
 
															-            wechat_ad_publisher_adunit_general.click_count = stat_item['click_count']
														
 
															-            wechat_ad_publisher_adunit_general.click_rate = stat_item['click_rate']
														
 
															-            wechat_ad_publisher_adunit_general.date = stat_item['date']
														
 
															-            wechat_ad_publisher_adunit_general.ecpm = stat_item['ecpm']
														
 
															-            wechat_ad_publisher_adunit_general.exposure_count = stat_item['exposure_count']
														
 
															-            wechat_ad_publisher_adunit_general.exposure_rate = stat_item['exposure_rate']
														
 
															-            wechat_ad_publisher_adunit_general.income = stat_item['income']
														
 
															-            wechat_ad_publisher_adunit_general.req_succ_count = stat_item['req_succ_count']
														
 
															-            wechat_ad_publisher_adunit_general.slot_str = stat_item['slot_str']
														
 
															-            wechat_ad_publisher_adunit_general.date_str = stat_item['date'].replace('-','')
														
 
															-            wechat_ad_publisher_adunit_general.app_type = app_type
														
 
															-            session.add(wechat_ad_publisher_adunit_general)
														
 
															-            print(f'add_ad_data is OK!; app_type = {app_type}')
														
 
															-    except Exception as e:
														
 
															-        traceback.print_exc()
														
 
															-        print(f"add_ad_data error: app_type = {app_type}; traceback.format_exc = {traceback.format_exc()}")
														
 
															-
														
 
															-def add_ad_adpos_data(stat_item, app_type):
														
 
															-    # Use a breakpoint in the code line below to debug your script.
														
 
															-    print(f'Hi, add_ad_adpos_data.app_type = {app_type}, stat_time = {stat_item}')  # Press ⌘F8 to toggle the breakpoint.
														
 
															-    try:
														
 
															-        with session_maker() as session:
														
 
															-            wechat_ad_publisher_adpos_general = WECHAT_AD_PUBLISHER_ADPOS_GENERAL()
														
 
															-            wechat_ad_publisher_adpos_general.ad_slot = stat_item['ad_slot']
														
 
															-            wechat_ad_publisher_adpos_general.click_count = stat_item['click_count']
														
 
															-            wechat_ad_publisher_adpos_general.click_rate = stat_item['click_rate']
														
 
															-            wechat_ad_publisher_adpos_general.date = stat_item['date']
														
 
															-            wechat_ad_publisher_adpos_general.ecpm = stat_item['ecpm']
														
 
															-            wechat_ad_publisher_adpos_general.exposure_count = stat_item['exposure_count']
														
 
															-            wechat_ad_publisher_adpos_general.exposure_rate = stat_item['exposure_rate']
														
 
															-            wechat_ad_publisher_adpos_general.income = stat_item['income']
														
 
															-            wechat_ad_publisher_adpos_general.req_succ_count = stat_item['req_succ_count']
														
 
															-            wechat_ad_publisher_adpos_general.slot_str = stat_item['slot_str']
														
 
															-            wechat_ad_publisher_adpos_general.date_str = stat_item['date'].replace('-','')
														
 
															-            wechat_ad_publisher_adpos_general.app_type = app_type
														
 
															-            session.add(wechat_ad_publisher_adpos_general)
														
 
															-            print(f'add_ad_adpos_data is OK; app_type = {app_type}')
														
 
															-    except Exception as e:
														
 
															-        traceback.print_exc()
														
 
															-        print(f"add_ad_adpos_data error: app_type = {app_type}; traceback.format_exc = {traceback.format_exc()}")
														
 
															-
														
 
															-
														
 
															-
														
 
															-def post_inform(url, content_text):
														
 
															-    url = url
														
 
															-    data = json.dumps(content_text)
														
 
															-    data = bytes(data, 'utf8')
														
 
															-    print(f"post_inform data = {data}")
														
 
															-    headers = {"Content-Type": 'application/json'}
														
 
															-    req = urllib.request.Request(url=url, headers=headers, data=data)
														
 
															-    try:
														
 
															-        resp = urllib.request.urlopen(req, timeout=10).read()
														
 
															-        print(f"post_inform resp = {resp.decode('utf-8')}")
														
 
															-        return resp.decode('utf-8')
														
 
															-    except Exception as e:
														
 
															-        print(e)
														
 
															-
														
 
															-def get_inform(url):
														
 
															-    url = url
														
 
															-    headers = {"Content-Type": 'application/json'}
														
 
															-    print(f"get_inform url = {url}")
														
 
															-    req = urllib.request.Request(url=url, headers=headers)
														
 
															-    try:
														
 
															-        resp = urllib.request.urlopen(req, timeout=10).read()
														
 
															-        print(f"get_inform resp = {resp.decode('utf-8')}")
														
 
															-        return resp.decode('utf-8')
														
 
															-    except Exception as e:
														
 
															-        print(e)
														
 
															-
														
 
															-def get_mp_info(app_type):
														
 
															-    datestr = datetime.datetime.strftime(datetime.datetime.now() - datetime.timedelta(days=+1), '%Y-%m-%d')
														
 
															-    print(f"get_mp_info: app_type = {app_type} date = {datestr}")
														
 
															-    time_str = time.strftime("%Y:%m:%d %H")
														
 
															-    print(f"get_mp_info: app_type= {app_type} time = {time_str}")
														
 
															-    md5 = hashlib.md5('{}'.format(time_str).encode(encoding='UTF-8')).hexdigest()
														
 
															-    print(f"get_mp_info: app_type = {app_type} md5 = {md5}")
														
 
															-
														
 
															-    getliveaccesstoken_url = "https://longvideoapi.piaoquantv.com/longvideoapi/weixin/getWxAccessToken/{}".format(app_type)
														
 
															-    print(f"get_mp_info getliveaccesstoken_url = {getliveaccesstoken_url}")
														
 
															-    ret = get_inform(getliveaccesstoken_url)
														
 
															-    data = json.loads(ret).get('data',{})
														
 
															-    print(f"get_mp_info app_type = {app_type} getWxAccessToken date = {data}")
														
 
															-    with session_maker() as session:
														
 
															-        task = session.query(WECHAT_AD_PUBLISHER_ADUNIT_GENERAL).filter_by(date=datestr,app_type=app_type).first()
														
 
															-        if task is None:
														
 
															-            getweanalysisappiddailyvisittrend_url = 'https://api.weixin.qq.com/publisher/stat?action=publisher_adunit_general&access_token={}&page=1&page_size=100&start_date={}&end_date={}'.format(
														
 
															-                data, datestr, datestr)
														
 
															-            print(f"get_mp_info app_type = {app_type} publisher/stat adunit = {getweanalysisappiddailyvisittrend_url}")
														
 
															-            ret = get_inform(getweanalysisappiddailyvisittrend_url)
														
 
															-            print(f"get_mp_info app_type = {app_type} publisher/stat adunit result = {ret}")
														
 
															-            list = json.loads(ret).get('list',[])
														
 
															-            for item in list:
														
 
															-                add_ad_data(item, app_type)
														
 
															-
														
 
															-        task = session.query(WECHAT_AD_PUBLISHER_ADPOS_GENERAL).filter_by(date=datestr, app_type=app_type).first()
														
 
															-        if task is None:
														
 
															-            getweanalysisappiddailyvisittrend_url = 'https://api.weixin.qq.com/publisher/stat?action=publisher_adpos_general&access_token={}&page=1&page_size=100&start_date={}&end_date={}'.format(
														
 
															-                data, datestr, datestr)
														
 
															-            print(f"get_mp_info app_type = {app_type} publisher/stat adops = {getweanalysisappiddailyvisittrend_url}")
														
 
															-            ret = get_inform(getweanalysisappiddailyvisittrend_url)
														
 
															-            print(f"get_mp_info app_type = {app_type} publisher/stat adops result = {ret}")
														
 
															-            list = json.loads(ret).get('list',[])
														
 
															-            for item in list:
														
 
															-                add_ad_adpos_data(item, app_type)
														
 
															-            summary = json.loads(ret)['summary']
														
 
															-            summary['ad_slot'] = 'SLOT_ID_WEAPP_ALL'
														
 
															-            summary['date'] = datestr
														
 
															-            summary['slot_str'] = 'summary'
														
 
															-            add_ad_adpos_data(summary, app_type)
														
 
															-
														
 
															-# Press the green button in the gutter to run the script.
														
 
															-if __name__ == '__main__':
														
 
															-    app_type_list = [0,2,3,4,5,6,17,18,19,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36]
														
 
															-    # app_type_list = [2,23,24,25]
														
 
															-    for app_type in app_type_list:
														
 
															-        print(f"start app_type = {app_type}")
														
 
															-        try:
														
 
															-            get_mp_info(app_type)
														
 
															-        except Exception as e:
														
 
															-            print(f"app_type {app_type} get data error: {traceback.format_exc()}")
														
 
															-        print(f"end app_type = {app_type}")
														
 
															-        print("")
														
 
															-# See PyCharm help at https://www.jetbrains.com/help/pycharm/
														
 
															-
														
--- a/model/feature.py
+++ b/model/feature.py
@@ -1,421 +0,0 @@
 
															-import glob
														
 
															-import os.path
														
 
															-from datetime import timedelta
														
 
															-
														
 
															-import numpy as np
														
 
															-import pandas as pd
														
 
															-import xgboost as xgb
														
 
															-
														
 
															-from model.XGBModel import XGBModel
														
 
															-
														
 
															-features = [
														
 
															-    "cpa",
														
 
															-    "b2_3h_ctr",
														
 
															-    "b2_3h_ctcvr",
														
 
															-    "b2_3h_cvr",
														
 
															-    "b2_3h_conver",
														
 
															-    "b2_3h_ecpm",
														
 
															-    "b2_3h_click",
														
 
															-    "b2_3h_conver*log(view)",
														
 
															-    "b2_3h_conver*ctcvr",
														
 
															-    "b2_6h_ctr",
														
 
															-    "b2_6h_ctcvr",
														
 
															-    "b2_6h_cvr",
														
 
															-    "b2_6h_conver",
														
 
															-    "b2_6h_ecpm",
														
 
															-    "b2_6h_click",
														
 
															-    "b2_6h_conver*log(view)",
														
 
															-    "b2_6h_conver*ctcvr",
														
 
															-    "b2_12h_ctr",
														
 
															-    "b2_12h_ctcvr",
														
 
															-    "b2_12h_cvr",
														
 
															-    "b2_12h_conver",
														
 
															-    "b2_12h_ecpm",
														
 
															-    "b2_12h_click",
														
 
															-    "b2_12h_conver*log(view)",
														
 
															-    "b2_12h_conver*ctcvr",
														
 
															-    "b2_1d_ctr",
														
 
															-    "b2_1d_ctcvr",
														
 
															-    "b2_1d_cvr",
														
 
															-    "b2_1d_conver",
														
 
															-    "b2_1d_ecpm",
														
 
															-    "b2_1d_click",
														
 
															-    "b2_1d_conver*log(view)",
														
 
															-    "b2_1d_conver*ctcvr",
														
 
															-    "b2_3d_ctr",
														
 
															-    "b2_3d_ctcvr",
														
 
															-    "b2_3d_cvr",
														
 
															-    "b2_3d_conver",
														
 
															-    "b2_3d_ecpm",
														
 
															-    "b2_3d_click",
														
 
															-    "b2_3d_conver*log(view)",
														
 
															-    "b2_3d_conver*ctcvr",
														
 
															-    "b2_7d_ctr",
														
 
															-    "b2_7d_ctcvr",
														
 
															-    "b2_7d_cvr",
														
 
															-    "b2_7d_conver",
														
 
															-    "b2_7d_ecpm",
														
 
															-    "b2_7d_click",
														
 
															-    "b2_7d_conver*log(view)",
														
 
															-    "b2_7d_conver*ctcvr",
														
 
															-    "b3_3h_ctr",
														
 
															-    "b3_3h_ctcvr",
														
 
															-    "b3_3h_cvr",
														
 
															-    "b3_3h_conver",
														
 
															-    "b3_3h_ecpm",
														
 
															-    "b3_3h_click",
														
 
															-    "b3_3h_conver*log(view)",
														
 
															-    "b3_3h_conver*ctcvr",
														
 
															-    "b3_6h_ctr",
														
 
															-    "b3_6h_ctcvr",
														
 
															-    "b3_6h_cvr",
														
 
															-    "b3_6h_conver",
														
 
															-    "b3_6h_ecpm",
														
 
															-    "b3_6h_click",
														
 
															-    "b3_6h_conver*log(view)",
														
 
															-    "b3_6h_conver*ctcvr",
														
 
															-    "b3_12h_ctr",
														
 
															-    "b3_12h_ctcvr",
														
 
															-    "b3_12h_cvr",
														
 
															-    "b3_12h_conver",
														
 
															-    "b3_12h_ecpm",
														
 
															-    "b3_12h_click",
														
 
															-    "b3_12h_conver*log(view)",
														
 
															-    "b3_12h_conver*ctcvr",
														
 
															-    "b3_1d_ctr",
														
 
															-    "b3_1d_ctcvr",
														
 
															-    "b3_1d_cvr",
														
 
															-    "b3_1d_conver",
														
 
															-    "b3_1d_ecpm",
														
 
															-    "b3_1d_click",
														
 
															-    "b3_1d_conver*log(view)",
														
 
															-    "b3_1d_conver*ctcvr",
														
 
															-    "b3_3d_ctr",
														
 
															-    "b3_3d_ctcvr",
														
 
															-    "b3_3d_cvr",
														
 
															-    "b3_3d_conver",
														
 
															-    "b3_3d_ecpm",
														
 
															-    "b3_3d_click",
														
 
															-    "b3_3d_conver*log(view)",
														
 
															-    "b3_3d_conver*ctcvr",
														
 
															-    "b3_7d_ctr",
														
 
															-    "b3_7d_ctcvr",
														
 
															-    "b3_7d_cvr",
														
 
															-    "b3_7d_conver",
														
 
															-    "b3_7d_ecpm",
														
 
															-    "b3_7d_click",
														
 
															-    "b3_7d_conver*log(view)",
														
 
															-    "b3_7d_conver*ctcvr",
														
 
															-    "b4_3h_ctr",
														
 
															-    "b4_3h_ctcvr",
														
 
															-    "b4_3h_cvr",
														
 
															-    "b4_3h_conver",
														
 
															-    "b4_3h_ecpm",
														
 
															-    "b4_3h_click",
														
 
															-    "b4_3h_conver*log(view)",
														
 
															-    "b4_3h_conver*ctcvr",
														
 
															-    "b4_6h_ctr",
														
 
															-    "b4_6h_ctcvr",
														
 
															-    "b4_6h_cvr",
														
 
															-    "b4_6h_conver",
														
 
															-    "b4_6h_ecpm",
														
 
															-    "b4_6h_click",
														
 
															-    "b4_6h_conver*log(view)",
														
 
															-    "b4_6h_conver*ctcvr",
														
 
															-    "b4_12h_ctr",
														
 
															-    "b4_12h_ctcvr",
														
 
															-    "b4_12h_cvr",
														
 
															-    "b4_12h_conver",
														
 
															-    "b4_12h_ecpm",
														
 
															-    "b4_12h_click",
														
 
															-    "b4_12h_conver*log(view)",
														
 
															-    "b4_12h_conver*ctcvr",
														
 
															-    "b4_1d_ctr",
														
 
															-    "b4_1d_ctcvr",
														
 
															-    "b4_1d_cvr",
														
 
															-    "b4_1d_conver",
														
 
															-    "b4_1d_ecpm",
														
 
															-    "b4_1d_click",
														
 
															-    "b4_1d_conver*log(view)",
														
 
															-    "b4_1d_conver*ctcvr",
														
 
															-    "b4_3d_ctr",
														
 
															-    "b4_3d_ctcvr",
														
 
															-    "b4_3d_cvr",
														
 
															-    "b4_3d_conver",
														
 
															-    "b4_3d_ecpm",
														
 
															-    "b4_3d_click",
														
 
															-    "b4_3d_conver*log(view)",
														
 
															-    "b4_3d_conver*ctcvr",
														
 
															-    "b4_7d_ctr",
														
 
															-    "b4_7d_ctcvr",
														
 
															-    "b4_7d_cvr",
														
 
															-    "b4_7d_conver",
														
 
															-    "b4_7d_ecpm",
														
 
															-    "b4_7d_click",
														
 
															-    "b4_7d_conver*log(view)",
														
 
															-    "b4_7d_conver*ctcvr",
														
 
															-    "b5_3h_ctr",
														
 
															-    "b5_3h_ctcvr",
														
 
															-    "b5_3h_cvr",
														
 
															-    "b5_3h_conver",
														
 
															-    "b5_3h_ecpm",
														
 
															-    "b5_3h_click",
														
 
															-    "b5_3h_conver*log(view)",
														
 
															-    "b5_3h_conver*ctcvr",
														
 
															-    "b5_6h_ctr",
														
 
															-    "b5_6h_ctcvr",
														
 
															-    "b5_6h_cvr",
														
 
															-    "b5_6h_conver",
														
 
															-    "b5_6h_ecpm",
														
 
															-    "b5_6h_click",
														
 
															-    "b5_6h_conver*log(view)",
														
 
															-    "b5_6h_conver*ctcvr",
														
 
															-    "b5_12h_ctr",
														
 
															-    "b5_12h_ctcvr",
														
 
															-    "b5_12h_cvr",
														
 
															-    "b5_12h_conver",
														
 
															-    "b5_12h_ecpm",
														
 
															-    "b5_12h_click",
														
 
															-    "b5_12h_conver*log(view)",
														
 
															-    "b5_12h_conver*ctcvr",
														
 
															-    "b5_1d_ctr",
														
 
															-    "b5_1d_ctcvr",
														
 
															-    "b5_1d_cvr",
														
 
															-    "b5_1d_conver",
														
 
															-    "b5_1d_ecpm",
														
 
															-    "b5_1d_click",
														
 
															-    "b5_1d_conver*log(view)",
														
 
															-    "b5_1d_conver*ctcvr",
														
 
															-    "b5_3d_ctr",
														
 
															-    "b5_3d_ctcvr",
														
 
															-    "b5_3d_cvr",
														
 
															-    "b5_3d_conver",
														
 
															-    "b5_3d_ecpm",
														
 
															-    "b5_3d_click",
														
 
															-    "b5_3d_conver*log(view)",
														
 
															-    "b5_3d_conver*ctcvr",
														
 
															-    "b5_7d_ctr",
														
 
															-    "b5_7d_ctcvr",
														
 
															-    "b5_7d_cvr",
														
 
															-    "b5_7d_conver",
														
 
															-    "b5_7d_ecpm",
														
 
															-    "b5_7d_click",
														
 
															-    "b5_7d_conver*log(view)",
														
 
															-    "b5_7d_conver*ctcvr",
														
 
															-    "b8_3h_ctr",
														
 
															-    "b8_3h_ctcvr",
														
 
															-    "b8_3h_cvr",
														
 
															-    "b8_3h_conver",
														
 
															-    "b8_3h_ecpm",
														
 
															-    "b8_3h_click",
														
 
															-    "b8_3h_conver*log(view)",
														
 
															-    "b8_3h_conver*ctcvr",
														
 
															-    "b8_6h_ctr",
														
 
															-    "b8_6h_ctcvr",
														
 
															-    "b8_6h_cvr",
														
 
															-    "b8_6h_conver",
														
 
															-    "b8_6h_ecpm",
														
 
															-    "b8_6h_click",
														
 
															-    "b8_6h_conver*log(view)",
														
 
															-    "b8_6h_conver*ctcvr",
														
 
															-    "b8_12h_ctr",
														
 
															-    "b8_12h_ctcvr",
														
 
															-    "b8_12h_cvr",
														
 
															-    "b8_12h_conver",
														
 
															-    "b8_12h_ecpm",
														
 
															-    "b8_12h_click",
														
 
															-    "b8_12h_conver*log(view)",
														
 
															-    "b8_12h_conver*ctcvr",
														
 
															-    "b8_1d_ctr",
														
 
															-    "b8_1d_ctcvr",
														
 
															-    "b8_1d_cvr",
														
 
															-    "b8_1d_conver",
														
 
															-    "b8_1d_ecpm",
														
 
															-    "b8_1d_click",
														
 
															-    "b8_1d_conver*log(view)",
														
 
															-    "b8_1d_conver*ctcvr",
														
 
															-    "b8_3d_ctr",
														
 
															-    "b8_3d_ctcvr",
														
 
															-    "b8_3d_cvr",
														
 
															-    "b8_3d_conver",
														
 
															-    "b8_3d_ecpm",
														
 
															-    "b8_3d_click",
														
 
															-    "b8_3d_conver*log(view)",
														
 
															-    "b8_3d_conver*ctcvr",
														
 
															-    "b8_7d_ctr",
														
 
															-    "b8_7d_ctcvr",
														
 
															-    "b8_7d_cvr",
														
 
															-    "b8_7d_conver",
														
 
															-    "b8_7d_ecpm",
														
 
															-    "b8_7d_click",
														
 
															-    "b8_7d_conver*log(view)",
														
 
															-    "b8_7d_conver*ctcvr",
														
 
															-    "b6_7d_ctr",
														
 
															-    "b6_7d_ctcvr",
														
 
															-    "b6_7d_cvr",
														
 
															-    "b6_7d_conver",
														
 
															-    "b6_7d_ecpm",
														
 
															-    "b6_7d_click",
														
 
															-    "b6_7d_conver*log(view)",
														
 
															-    "b6_7d_conver*ctcvr",
														
 
															-    "b6_14d_ctr",
														
 
															-    "b6_14d_ctcvr",
														
 
															-    "b6_14d_cvr",
														
 
															-    "b6_14d_conver",
														
 
															-    "b6_14d_ecpm",
														
 
															-    "b6_14d_click",
														
 
															-    "b6_14d_conver*log(view)",
														
 
															-    "b6_14d_conver*ctcvr",
														
 
															-    "b7_7d_ctr",
														
 
															-    "b7_7d_ctcvr",
														
 
															-    "b7_7d_cvr",
														
 
															-    "b7_7d_conver",
														
 
															-    "b7_7d_ecpm",
														
 
															-    "b7_7d_click",
														
 
															-    "b7_7d_conver*log(view)",
														
 
															-    "b7_7d_conver*ctcvr",
														
 
															-    "b7_14d_ctr",
														
 
															-    "b7_14d_ctcvr",
														
 
															-    "b7_14d_cvr",
														
 
															-    "b7_14d_conver",
														
 
															-    "b7_14d_ecpm",
														
 
															-    "b7_14d_click",
														
 
															-    "b7_14d_conver*log(view)",
														
 
															-    "b7_14d_conver*ctcvr",
														
 
															-    "viewAll",
														
 
															-    "clickAll",
														
 
															-    "converAll",
														
 
															-    "incomeAll",
														
 
															-    "ctr_all",
														
 
															-    "ctcvr_all",
														
 
															-    "cvr_all",
														
 
															-    "ecpm_all",
														
 
															-    "timediff_view",
														
 
															-    "timediff_click",
														
 
															-    "timediff_conver",
														
 
															-    "actionstatic_view",
														
 
															-    "actionstatic_click",
														
 
															-    "actionstatic_conver",
														
 
															-    "actionstatic_income",
														
 
															-    "actionstatic_ctr",
														
 
															-    "actionstatic_ctcvr",
														
 
															-    "actionstatic_cvr",
														
 
															-    "e1_tags_3d_matchnum",
														
 
															-    "e1_tags_3d_maxscore",
														
 
															-    "e1_tags_3d_avgscore",
														
 
															-    "e1_tags_7d_matchnum",
														
 
															-    "e1_tags_7d_maxscore",
														
 
															-    "e1_tags_7d_avgscore",
														
 
															-    "e1_tags_14d_matchnum",
														
 
															-    "e1_tags_14d_maxscore",
														
 
															-    "e1_tags_14d_avgscore",
														
 
															-    "e2_tags_3d_matchnum",
														
 
															-    "e2_tags_3d_maxscore",
														
 
															-    "e2_tags_3d_avgscore",
														
 
															-    "e2_tags_7d_matchnum",
														
 
															-    "e2_tags_7d_maxscore",
														
 
															-    "e2_tags_7d_avgscore",
														
 
															-    "e2_tags_14d_matchnum",
														
 
															-    "e2_tags_14d_maxscore",
														
 
															-    "e2_tags_14d_avgscore",
														
 
															-    "d1_feature_3h_ctr",
														
 
															-    "d1_feature_3h_ctcvr",
														
 
															-    "d1_feature_3h_cvr",
														
 
															-    "d1_feature_3h_conver",
														
 
															-    "d1_feature_3h_ecpm",
														
 
															-    "d1_feature_6h_ctr",
														
 
															-    "d1_feature_6h_ctcvr",
														
 
															-    "d1_feature_6h_cvr",
														
 
															-    "d1_feature_6h_conver",
														
 
															-    "d1_feature_6h_ecpm",
														
 
															-    "d1_feature_12h_ctr",
														
 
															-    "d1_feature_12h_ctcvr",
														
 
															-    "d1_feature_12h_cvr",
														
 
															-    "d1_feature_12h_conver",
														
 
															-    "d1_feature_12h_ecpm",
														
 
															-    "d1_feature_1d_ctr",
														
 
															-    "d1_feature_1d_ctcvr",
														
 
															-    "d1_feature_1d_cvr",
														
 
															-    "d1_feature_1d_conver",
														
 
															-    "d1_feature_1d_ecpm",
														
 
															-    "d1_feature_3d_ctr",
														
 
															-    "d1_feature_3d_ctcvr",
														
 
															-    "d1_feature_3d_cvr",
														
 
															-    "d1_feature_3d_conver",
														
 
															-    "d1_feature_3d_ecpm",
														
 
															-    "d1_feature_7d_ctr",
														
 
															-    "d1_feature_7d_ctcvr",
														
 
															-    "d1_feature_7d_cvr",
														
 
															-    "d1_feature_7d_conver",
														
 
															-    "d1_feature_7d_ecpm",
														
 
															-    "vid_rank_ctr_1d",
														
 
															-    "vid_rank_ctr_3d",
														
 
															-    "vid_rank_ctr_7d",
														
 
															-    "vid_rank_ctr_14d",
														
 
															-    "vid_rank_ctcvr_1d",
														
 
															-    "vid_rank_ctcvr_3d",
														
 
															-    "vid_rank_ctcvr_7d",
														
 
															-    "vid_rank_ctcvr_14d",
														
 
															-    "vid_rank_ecpm_1d",
														
 
															-    "vid_rank_ecpm_3d",
														
 
															-    "vid_rank_ecpm_7d",
														
 
															-    "vid_rank_ecpm_14d"
														
 
															-]
														
 
															-
														
 
															-
														
 
															-def load_model_and_score(model_path, feature_map):
														
 
															-    model = xgb.Booster()
														
 
															-    model.load_model(f"{model_path}/data/XGBoostClassificationModel")
														
 
															-    model.set_param({"missing": 0.0})
														
 
															-
														
 
															-    values = np.array([
														
 
															-        float(feature_map.get(feature, 0.0))
														
 
															-        for feature in features
														
 
															-    ], dtype=np.float32)
														
 
															-
														
 
															-    dm = xgb.DMatrix(values.reshape(1, -1), missing=0.0)
														
 
															-    return float(model.predict(dm, output_margin=False)[0])
														
 
															-
														
 
															-
														
 
															-def _multi_importance_flat_map(importance_map: dict):
														
 
															-    result = []
														
 
															-    all_features = set(key for inner_dict in importance_map.values() for key in inner_dict.keys())
														
 
															-    for feature in all_features:
														
 
															-        item = {
														
 
															-            "feature": feature,
														
 
															-        }
														
 
															-        for key in importance_map:
														
 
															-            if feature in importance_map[key]:
														
 
															-                item[key] = importance_map[key][feature]
														
 
															-        result.append(item)
														
 
															-    return result
														
 
															-
														
 
															-
														
 
															-def _main():
														
 
															-    model_path = "/Users/zhao/Desktop/tzld/ad/model"
														
 
															-    all_model = glob.glob(f"{model_path}/*")
														
 
															-    model_dict = {}
														
 
															-    for e in all_model:
														
 
															-        if "model_xgb_351_1000_v2" in e:
														
 
															-            model_dict[e] = XGBModel(model_file=f"{e}/data/XGBoostClassificationModel", features=features)
														
 
															-
														
 
															-    weight_dict = {}
														
 
															-    cover_dict = {}
														
 
															-    gain_dict = {}
														
 
															-    for key in model_dict:
														
 
															-        dt = os.path.basename(key)[-9:]
														
 
															-        weight_dict[dt] = model_dict[key].feature_weight_importance()
														
 
															-        cover_dict[dt] = model_dict[key].feature_cover_importance()
														
 
															-        gain_dict[dt] = model_dict[key].feature_gain_importance()
														
 
															-
														
 
															-    weight = _multi_importance_flat_map(dict(sorted(weight_dict.items())))
														
 
															-    cover = _multi_importance_flat_map(dict(sorted(cover_dict.items())))
														
 
															-    gain = _multi_importance_flat_map(dict(sorted(gain_dict.items())))
														
 
															-
														
 
															-    pd.DataFrame(weight).to_csv("/Users/zhao/Desktop/weight.csv", index=False)
														
 
															-    pd.DataFrame(cover).to_csv("/Users/zhao/Desktop/cover.csv", index=False)
														
 
															-    pd.DataFrame(gain).to_csv("/Users/zhao/Desktop/gain.csv", index=False)
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    _main()
														
--- a/model/model_predict_analyse_20241115.py
+++ b/model/model_predict_analyse_20241115.py
@@ -1,197 +0,0 @@
 
															-import gzip
														
 
															-import os.path
														
 
															-
														
 
															-import pandas as pd
														
 
															-from hdfs import InsecureClient
														
 
															-
														
 
															-client = InsecureClient("http://master-1-1.c-7f31a3eea195cb73.cn-hangzhou.emr.aliyuncs.com:9870", user="spark")
														
 
															-
														
 
															-SEGMENT_BASE_PATH = os.environ.get("SEGMENT_BASE_PATH", "/Users/zhao/Desktop/tzld/XGB/predict_cache")
														
 
															-PREDICT_CACHE_PATH = os.environ.get("PREDICT_CACHE_PATH", "/Users/zhao/Desktop/tzld/XGB/predict_cache")
														
 
															-
														
 
															-
														
 
															-def parse_predict_line(line: str) -> [bool, dict]:
														
 
															-    sp = line.replace("\n", "").split("\t")
														
 
															-    if len(sp) == 4:
														
 
															-        label = int(sp[0])
														
 
															-        cid = sp[3].split("_")[0]
														
 
															-        score = float(sp[2].replace("[", "").replace("]", "").split(",")[1])
														
 
															-        return True, {
														
 
															-            "label": label,
														
 
															-            "cid": cid,
														
 
															-            "score": score
														
 
															-        }
														
 
															-    return False, {}
														
 
															-
														
 
															-
														
 
															-def read_predict_file(file_path: str) -> pd.DataFrame:
														
 
															-    result = []
														
 
															-    if file_path.startswith("/dw"):
														
 
															-        if not file_path.endswith("/"):
														
 
															-            file_path += "/"
														
 
															-        for file in client.list(file_path):
														
 
															-            with client.read(file_path + file) as reader:
														
 
															-                with gzip.GzipFile(fileobj=reader, mode="rb") as gz_file:
														
 
															-                    for line in gz_file.read().decode("utf-8").split("\n"):
														
 
															-                        b, d = parse_predict_line(line)
														
 
															-                        if b: result.append(d)
														
 
															-    else:
														
 
															-        with open(file_path, "r") as f:
														
 
															-            for line in f.readlines():
														
 
															-                b, d = parse_predict_line(line)
														
 
															-                if b: result.append(d)
														
 
															-    return pd.DataFrame(result)
														
 
															-
														
 
															-
														
 
															-def calibration_file_save(df: pd.DataFrame, file_path: str):
														
 
															-    if file_path.startswith("/dw"):
														
 
															-        # 完整的分段文件保存
														
 
															-        with client.write(file_path, encoding='utf-8', overwrite=True) as writer:
														
 
															-            writer.write(df.to_csv(sep="\t", index=False))
														
 
															-    else:
														
 
															-        df.tocsv(file_path, sep="\t", index=False)
														
 
															-
														
 
															-
														
 
															-def predict_local_save_for_auc(old_df: pd.DataFrame, new_df: pd.DataFrame):
														
 
															-    """
														
 
															-    本地保存一份评估结果, 计算AUC使用
														
 
															-    """
														
 
															-    d = {"old": old_df, "new": new_df}
														
 
															-    for key in d:
														
 
															-        df = d[key]
														
 
															-        if 'score' in df.columns:
														
 
															-            score_df = df[['label', "score"]]
														
 
															-            score_df.to_csv(f"{PREDICT_CACHE_PATH}/{key}_1.txt", sep="\t", index=False, header=False)
														
 
															-        if 'score_2' in df.columns:
														
 
															-            score_2_df = d[key][['label', "score_2"]]
														
 
															-            score_2_df.to_csv(f"{PREDICT_CACHE_PATH}/{key}_2.txt", sep="\t", index=False, header=False)
														
 
															-
														
 
															-
														
 
															-def save_full_calibration_file(df: pd.DataFrame, segment_file_path: str):
														
 
															-    if segment_file_path.startswith("/dw"):
														
 
															-        # 完整的分段文件保存
														
 
															-        with client.write(segment_file_path, encoding='utf-8', overwrite=True) as writer:
														
 
															-            writer.write(df.to_csv(sep="\t", index=False))
														
 
															-    else:
														
 
															-        df.to_csv(segment_file_path, sep="\t", index=False)
														
 
															-
														
 
															-
														
 
															-def get_predict_calibration_file(df: pd.DataFrame, predict_basename: str) -> [pd.DataFrame]:
														
 
															-    """
														
 
															-    计算模型分的diff_rate
														
 
															-    """
														
 
															-    agg_df = predict_df_agg(df)
														
 
															-    agg_df['diff_rate'] = (agg_df['score_avg'] / agg_df['true_ctcvr'] - 1).mask(agg_df['true_ctcvr'] == 0, 0).round(6)
														
 
															-    condition = 'view > 1000 and diff_rate >= 0.2'
														
 
															-    save_full_calibration_file(agg_df, f"{SEGMENT_BASE_PATH}/{predict_basename}.txt")
														
 
															-    calibration = agg_df[(agg_df['view'] > 1000) & ((agg_df['diff_rate'] >= 0.2) | (agg_df['diff_rate'] <= 0.2)) & agg_df['diff_rate'] != 0]
														
 
															-    return calibration
														
 
															-
														
 
															-
														
 
															-def get_predict_basename(predict_path) -> [str]:
														
 
															-    """
														
 
															-    获取文件路径的最后一部分，作为与模型关联的文件名
														
 
															-    """
														
 
															-    predict_basename = os.path.basename(predict_path)
														
 
															-    if predict_basename.endswith("/"):
														
 
															-        predict_basename = predict_basename[:-1]
														
 
															-
														
 
															-    return predict_basename
														
 
															-
														
 
															-
														
 
															-def calc_calibration_score2(df: pd.DataFrame, calibration_df: pd.DataFrame) -> [pd.DataFrame]:
														
 
															-    calibration_df = calibration_df[['cid', 'diff_rate']]
														
 
															-    df = pd.merge(df, calibration_df, on='cid', how='left').fillna(0)
														
 
															-    df['score_2'] = df['score'] / (1 + df['diff_rate'])
														
 
															-    return df
														
 
															-
														
 
															-
														
 
															-def predict_df_agg(df: pd.DataFrame) -> [pd.DataFrame]:
														
 
															-    # 基础聚合操作
														
 
															-    agg_operations = {
														
 
															-        'view': ('cid', 'size'),
														
 
															-        'conv': ('label', 'sum'),
														
 
															-        'score_avg': ('score', lambda x: round(x.mean(), 6)),
														
 
															-    }
														
 
															-
														
 
															-    # 如果存在 score_2 列，则增加相关聚合
														
 
															-    if "score_2" in df.columns:
														
 
															-        agg_operations['score_2_avg'] = ('score_2', lambda x: round(x.mean(), 6))
														
 
															-
														
 
															-    grouped_df = df.groupby("cid").agg(**agg_operations).reset_index()
														
 
															-    grouped_df['true_ctcvr'] = grouped_df['conv'] / grouped_df['view']
														
 
															-
														
 
															-    return grouped_df
														
 
															-
														
 
															-
														
 
															-def _main(old_predict_path: str, new_predict_path: str, calibration_file: str, analyse_file: str):
														
 
															-    old_df = read_predict_file(old_predict_path)
														
 
															-    new_df = read_predict_file(new_predict_path)
														
 
															-
														
 
															-    old_calibration_df = get_predict_calibration_file(old_df, get_predict_basename(old_predict_path))
														
 
															-    old_df = calc_calibration_score2(old_df, old_calibration_df)
														
 
															-
														
 
															-    new_calibration_df = get_predict_calibration_file(new_df, get_predict_basename(new_predict_path))
														
 
															-    new_df = calc_calibration_score2(new_df, new_calibration_df)
														
 
															-
														
 
															-    # 本地保存label、score以及校准后的score，用于计算AUC等信息
														
 
															-    predict_local_save_for_auc(old_df, new_df)
														
 
															-
														
 
															-    # 新模型校准文件保存本地，用于同步OSS
														
 
															-    new_calibration_df[['cid', 'diff_rate']].to_csv(calibration_file, sep="\t", index=False, header=False)
														
 
															-
														
 
															-    old_agg_df = predict_df_agg(old_df)
														
 
															-    new_agg_df = predict_df_agg(new_df)
														
 
															-
														
 
															-    # 字段重命名，和列过滤
														
 
															-    old_agg_df.rename(columns={'score_avg': 'old_score_avg', 'score_2_avg': 'old_score_2_avg'}, inplace=True)
														
 
															-    new_agg_df.rename(columns={'score_avg': 'new_score_avg', 'score_2_avg': 'new_score_2_avg'}, inplace=True)
														
 
															-    old_group_df = old_agg_df[['cid', 'view', 'conv', 'true_ctcvr', 'old_score_avg', 'old_score_2_avg']]
														
 
															-    new_group_df = new_agg_df[['cid', 'new_score_avg', 'new_score_2_avg']]
														
 
															-    merged = pd.merge(old_group_df, new_group_df, on='cid', how='left')
														
 
															-
														
 
															-    # 计算与真实ctcvr的差异值
														
 
															-    merged["(new-true)/true"] = (merged['new_score_avg'] / merged['true_ctcvr'] - 1).mask(merged['true_ctcvr'] == 0, 0)
														
 
															-    merged["(old-true)/true"] = (merged['old_score_avg'] / merged['true_ctcvr'] - 1).mask(merged['true_ctcvr'] == 0, 0)
														
 
															-
														
 
															-    # 计算校准后的模型分与ctcvr的差异值
														
 
															-    merged["(new2-true)/true"] = (merged['new_score_2_avg'] / merged['true_ctcvr'] - 1).mask(merged['true_ctcvr'] == 0, 0)
														
 
															-    merged["(old2-true)/true"] = (merged['old_score_2_avg'] / merged['true_ctcvr'] - 1).mask(merged['true_ctcvr'] == 0, 0)
														
 
															-
														
 
															-    # 按照曝光排序，写入本地文件
														
 
															-    merged = merged.sort_values(by=['view'], ascending=False)
														
 
															-    merged = merged[[
														
 
															-        'cid', 'view', "conv", "true_ctcvr",
														
 
															-        "old_score_avg", "new_score_avg", "(old-true)/true", "(new-true)/true",
														
 
															-        "old_score_2_avg", "new_score_2_avg", "(old2-true)/true", "(new2-true)/true",
														
 
															-    ]]
														
 
															-
														
 
															-    # 根据文件名保存不同的格式
														
 
															-    if analyse_file.endswith(".csv"):
														
 
															-        merged.to_csv(analyse_file, index=False)
														
 
															-    else:
														
 
															-        with open(analyse_file, "w") as writer:
														
 
															-            writer.write(merged.to_string(index=False))
														
 
															-    print("0")
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    _main(
														
 
															-        old_predict_path="/Users/zhao/Desktop/tzld/XGB/predict_result/20241210_351_1000_1201_1207.txt",
														
 
															-        new_predict_path="/Users/zhao/Desktop/tzld/XGB/predict_result/20241210_351_1000_1203_1209.txt",
														
 
															-        calibration_file="/Users/zhao/Desktop/tzld/XGB/calibration_file/model_xgb_351_1000_v2_calibration.txt",
														
 
															-        analyse_file="/Users/zhao/Desktop/tzld/XGB/predict_cache/analyse_file.txt"
														
 
															-    )
														
 
															-    # parser = argparse.ArgumentParser(description="model_predict_analyse_20241101.py")
														
 
															-    # parser.add_argument("-op", "--old_predict_path", required=True, help="老模型评估结果")
														
 
															-    # parser.add_argument("-np", "--new_predict_path", required=True, help="新模型评估结果")
														
 
															-    # parser.add_argument("-af", "--analyse_file", required=True, help="最后计算结果的保存路径")
														
 
															-    # parser.add_argument("-cf", "--calibration_file", required=True, help="线上使用的segment文件保存路径")
														
 
															-    # args = parser.parse_args()
														
 
															-    #
														
 
															-    # _main(
														
 
															-    #     old_predict_path=args.old_predict_path,
														
 
															-    #     new_predict_path=args.new_predict_path,
														
 
															-    #     calibration_file=args.calibration_file,
														
 
															-    #     analyse_file=args.analyse_file
														
 
															-    # )
														
--- a/model/ros_multi_class_model_predice_analyse.py
+++ b/model/ros_multi_class_model_predice_analyse.py
@@ -1,95 +0,0 @@
 
															-import numpy as np
														
 
															-from sklearn.metrics import roc_auc_score
														
 
															-
														
 
															-
														
 
															-def parse_line(line):
														
 
															-    """ 解析每一行数据 """
														
 
															-    parts = line.strip().split("\t")
														
 
															-    label = int(parts[0])
														
 
															-    scores = np.array([float(x) for x in parts[2].strip("[]").split(",")])
														
 
															-
														
 
															-    # 找到最大值索引
														
 
															-    max_index = np.argmax(scores)
														
 
															-
														
 
															-    # 生成 (label, score) 形式的 aucs
														
 
															-    aucs = np.array([(1 if i == label else 0, scores[i]) for i in range(len(scores))])
														
 
															-
														
 
															-    # 生成 (是否为真实 label, 是否为最大值) 的 accuracyRate
														
 
															-    accuracy_rate = np.array([(1 if i == label else 0, 1 if i == max_index else 0) for i in range(len(scores))])
														
 
															-
														
 
															-    return aucs, accuracy_rate
														
 
															-
														
 
															-
														
 
															-def compute_auc(auc_data):
														
 
															-    """ 计算 AUC 使用 roc_auc_score """
														
 
															-    num_classes = len(auc_data[0])  # 8 classes
														
 
															-    auc_scores = []
														
 
															-
														
 
															-    for i in range(num_classes):
														
 
															-        col_data = np.array([row[i] for row in auc_data])  # 取第 i 列
														
 
															-        labels, scores = col_data[:, 0], col_data[:, 1]
														
 
															-
														
 
															-        # 计算 AUC
														
 
															-        auc = roc_auc_score(labels, scores)
														
 
															-        auc_scores.append(auc)
														
 
															-
														
 
															-    return auc_scores
														
 
															-
														
 
															-
														
 
															-def compute_accuracy_rate(acc_data):
														
 
															-    """ 计算 accuracy """
														
 
															-    num_classes = len(acc_data[0])  # 8 classes
														
 
															-
														
 
															-    # 全局 accuracy 计算
														
 
															-    acc_flatten = np.vstack(acc_data)
														
 
															-    global_correct = np.sum((acc_flatten[:, 0] == 1) & (acc_flatten[:, 1] == 1))
														
 
															-    total_count = acc_flatten.shape[0] / num_classes
														
 
															-    global_accuracy = global_correct / total_count
														
 
															-
														
 
															-    # 按 label 计算 accuracy
														
 
															-    per_label_accuracy = []
														
 
															-    for i in range(num_classes):
														
 
															-        col_data = np.array([row[i] for row in acc_data])  # 取第 i 列
														
 
															-
														
 
															-        # 过滤这个分类的数据
														
 
															-        class_all_data = col_data[col_data[:, 1] == 1]
														
 
															-        # 过滤这个分类中预估对的数据
														
 
															-        positive_data = class_all_data[class_all_data[:, 0] == 1]
														
 
															-
														
 
															-        class_cnt = class_all_data.shape[0]
														
 
															-        positive_cnt = positive_data.shape[0]
														
 
															-
														
 
															-        accuracy = 0 if class_cnt == 0 else positive_cnt / class_cnt
														
 
															-        per_label_accuracy.append(accuracy)
														
 
															-
														
 
															-    return global_accuracy, per_label_accuracy
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    file_path = "/Users/zhao/Desktop/tzld/ros/ros_predict_20250302.txt"  # 本地文件路径
														
 
															-
														
 
															-    # 读取数据
														
 
															-    with open(file_path, "r") as f:
														
 
															-        data_lines = f.readlines()
														
 
															-
														
 
															-    # 解析数据
														
 
															-    parsed_data = [parse_line(line) for line in data_lines]
														
 
															-    auc_data = [item[0] for item in parsed_data]
														
 
															-    acc_data = [item[1] for item in parsed_data]
														
 
															-
														
 
															-    # 计算 AUC
														
 
															-    auc_scores = compute_auc(auc_data)
														
 
															-
														
 
															-    # 计算 Accuracy
														
 
															-    global_acc, per_label_acc = compute_accuracy_rate(acc_data)
														
 
															-
														
 
															-    # 打印结果
														
 
															-    print("AUC Scores:")
														
 
															-    for i, auc in enumerate(auc_scores):
														
 
															-        print(f"Label {i}: AUC = {auc:.4f}")
														
 
															-
														
 
															-    print(f"\nGlobal Accuracy: {global_acc:.4f}")
														
 
															-
														
 
															-    print("\nPer Label Accuracy:")
														
 
															-    for i, acc in enumerate(per_label_acc):
														
 
															-        print(f"Label {i}: Accuracy = {acc:.4f}")
														
--- a/model/segment_calibration_check.py
+++ b/model/segment_calibration_check.py
--- a/monitor/__init__.py
+++ b/monitor/__init__.py
--- a/monitor/automation_provide_job_monitor.py
+++ b/monitor/automation_provide_job_monitor.py
@@ -0,0 +1,80 @@
 
															+import datetime
														
 
															+
														
 
															+from aliyun.log import LogClient
														
 
															+from aliyun.log.auth import AUTH_VERSION_4
														
 
															+
														
 
															+from util import feishu_inform_util
														
 
															+
														
 
															+endpoint = "cn-hangzhou.log.aliyuncs.com"
														
 
															+access_key = "RfSjdiWwED1sGFlsjXv0DlfTnZTG1P"
														
 
															+access_key_id = "LTAIWYUujJAm7CbH"
														
 
															+project = "crawler-scheduler"
														
 
															+log_store = "aigc-provider"
														
 
															+query_sql = "* | select crawlerMode, result, if(reason='null', '成功', reason) as reason, count(distinct videoId) as videoIdCnt, count(distinct crawlerPlanId) as crawlerPlanIdCnt  from log where reason not in ('该账号已经存在爬取计划，跳过执行', '该视频近期已经处理过', '该Topic已经创建过爬取计划', '该关键词已经创建过爬取计划') group by crawlerMode, result, reason order by crawlerMode, result desc, reason"
														
 
															+
														
 
															+client = LogClient(endpoint=endpoint, accessKey=access_key, accessKeyId=access_key_id, auth_version=AUTH_VERSION_4, region='cn-hangzhou')
														
 
															+webhook = 'https://open.feishu.cn/open-apis/bot/v2/hook/9f5c5cce-5eb2-4731-b368-33926f5549f9'
														
 
															+
														
 
															+
														
 
															+def send_feishu_card_msg(title, content):
														
 
															+    card_json = {
														
 
															+        "schema": "2.0",
														
 
															+        "header": {
														
 
															+            "title": {
														
 
															+                "tag": "plain_text",
														
 
															+                "content": title
														
 
															+            },
														
 
															+            "template": "blue"
														
 
															+        },
														
 
															+        "body": {
														
 
															+            "elements": [
														
 
															+                {
														
 
															+                    "tag": "markdown",
														
 
															+                    "content": content,
														
 
															+                    "text_align": "left",
														
 
															+                    "text_size": "normal",
														
 
															+                    "element_id": "taskExecuteCnt"
														
 
															+                }
														
 
															+            ]
														
 
															+        }
														
 
															+    }
														
 
															+    feishu_inform_util.send_card_msg_to_feishu(webhook, card_json)
														
 
															+
														
 
															+
														
 
															+def main():
														
 
															+    # 获取当前日期
														
 
															+    today = datetime.datetime.now()
														
 
															+
														
 
															+    # 当天开始时间（00:00:00）
														
 
															+    start_of_day = datetime.datetime.combine(today.date(), datetime.time.min)
														
 
															+    # 当天结束时间（23:59:59.999999）
														
 
															+    end_of_day = datetime.datetime.combine(today.date(), datetime.time.max)
														
 
															+
														
 
															+    # 转换为时间戳（秒级）
														
 
															+    start_timestamp = int(start_of_day.timestamp())
														
 
															+    end_timestamp = int(end_of_day.timestamp())
														
 
															+
														
 
															+    resp = client.get_log(project=project, logstore=log_store, from_time=start_timestamp, to_time=end_timestamp, query=query_sql)
														
 
															+    log_data = resp.get_body().get('data')
														
 
															+
														
 
															+    crawler_mode_set = set()
														
 
															+    for datum in log_data:
														
 
															+        crawler_mode_set.add(datum.get('crawlerMode'))
														
 
															+
														
 
															+    for crawler_mode in crawler_mode_set:
														
 
															+        title = f"{crawler_mode} 执行情况监控"
														
 
															+        content = "| reason | videoIdCnt | crawlerPlanIdCnt |\n"
														
 
															+        content += "| --- | --- | --- |\n"
														
 
															+        for datum in resp.get_body().get('data'):
														
 
															+            if crawler_mode != datum.get('crawlerMode'):
														
 
															+                continue
														
 
															+            reason = datum.get('reason')
														
 
															+            video_id_cnt = datum.get('videoIdCnt')
														
 
															+            crawler_plan_id_cnt = datum.get('crawlerPlanIdCnt')
														
 
															+            content += f"| {reason} | {video_id_cnt} | {crawler_plan_id_cnt} |\n"
														
 
															+
														
 
															+        send_feishu_card_msg(title, content)
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/monitor/feature_spark_monitor.py
+++ b/monitor/feature_spark_monitor.py
--- a/monitor/hadoop_monitor.py
+++ b/monitor/hadoop_monitor.py
--- a/script/alg_table_info.py
+++ b/script/alg_table_info.py
--- a/script/data_download.py
+++ b/script/data_download.py
@@ -1,90 +0,0 @@
 
															-import time
														
 
															-from concurrent.futures import ThreadPoolExecutor, as_completed
														
 
															-from typing import Callable, Sequence
														
 
															-
														
 
															-from client import ODPSClient
														
 
															-
														
 
															-odps_client = ODPSClient.ODPSClient()
														
 
															-
														
 
															-
														
 
															-def process_tasks(tasks: Sequence[Callable[[], None]], max_workers: int) -> None:
														
 
															-    """
														
 
															-    通用任务处理器，将任务分批并发执行。
														
 
															-
														
 
															-    :param tasks: 一个可迭代对象，每个元素是一个 callable（无需参数）
														
 
															-    :param max_workers: 最大并发数
														
 
															-    """
														
 
															-    total_tasks = len(tasks)
														
 
															-    task_counter = 0
														
 
															-
														
 
															-    with ThreadPoolExecutor(max_workers=max_workers) as executor:
														
 
															-        future_tasks = {}
														
 
															-
														
 
															-        for task in tasks:
														
 
															-            task_counter += 1
														
 
															-            print(f"提交任务: 第 {task_counter}/{total_tasks} 个任务")
														
 
															-
														
 
															-            # 提交任务
														
 
															-            future = executor.submit(task)
														
 
															-            future_tasks[future] = (task, task_counter)
														
 
															-
														
 
															-            time.sleep(0.01)
														
 
															-
														
 
															-            # 控制每批次提交的任务数
														
 
															-            if len(future_tasks) == max_workers or task_counter == total_tasks:
														
 
															-                # 等待当前批次完成
														
 
															-                for future in as_completed(future_tasks):
														
 
															-                    task, counter = future_tasks[future]
														
 
															-                    try:
														
 
															-                        # 获取任务执行结果
														
 
															-                        future.result()
														
 
															-                        print(f"任务完成: 第 {counter}/{total_tasks} 个任务")
														
 
															-                    except Exception as exc:
														
 
															-                        print(f"任务出错: 第 {counter}/{total_tasks} 个任务出错, {exc}")
														
 
															-                # 清空当前批次任务
														
 
															-                future_tasks = {}
														
 
															-
														
 
															-
														
 
															-def ad_download() -> None:
														
 
															-    max_workers = 24
														
 
															-    sql_file_path = "/Users/zhao/Desktop/tzld/ad/sql/特征平均值.sql"
														
 
															-    dts = ["20241206",
														
 
															-           "20241207",
														
 
															-           "20241208",
														
 
															-           "20241209",
														
 
															-           "20241210",
														
 
															-           "20241211",
														
 
															-           "20241212",
														
 
															-           "20241213",
														
 
															-           "20241214",
														
 
															-           "20241215",
														
 
															-           "20241216"]
														
 
															-
														
 
															-    def create_task(dt: str) -> Callable[[], None]:
														
 
															-        def task() -> None:
														
 
															-            params = {
														
 
															-                "dt_1": dt,
														
 
															-                "dt_2": dt
														
 
															-            }
														
 
															-            result_file_path = f"/Users/zhao/Desktop/tzld/ad/特征/{dt}.csv"
														
 
															-            print(f"准备任务: {dt}")
														
 
															-            odps_client.execute_sql_file_result_save_fle(
														
 
															-                sql_file_path,
														
 
															-                params,
														
 
															-                result_file_path
														
 
															-            )
														
 
															-
														
 
															-        return task
														
 
															-
														
 
															-    tasks = [create_task(dt) for dt in dts]
														
 
															-
														
 
															-    process_tasks(tasks, max_workers)
														
 
															-    print("数据下载完成。")
														
 
															-
														
 
															-
														
 
															-def _main():
														
 
															-    ad_download()
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    _main()
														
--- a/script/t.py
+++ b/script/t.py
--- a/vov/__init__.py
+++ b/vov/__init__.py
--- a/vov/vov_h0_train.py
+++ b/vov/vov_h0_train.py
@@ -1,151 +0,0 @@
 
															-import numpy as np
														
 
															-import pandas as pd
														
 
															-from scipy.optimize import minimize
														
 
															-from sklearn.metrics import r2_score
														
 
															-from sklearn.model_selection import train_test_split
														
 
															-import pickle
														
 
															-
														
 
															-
														
 
															-# 1. 加载数据
														
 
															-def load_data(file_path):
														
 
															-    df = pd.read_csv(file_path, na_values='\\N')
														
 
															-    return df
														
 
															-
														
 
															-# 2. 数据预处理
														
 
															-def preprocess_data(df, features, target, exposure_col, top_k):
														
 
															-    # 按曝光量排序并选择 Top k 数据
														
 
															-    df_sorted = df.sort_values(by=exposure_col, ascending=False)
														
 
															-    df_topk = df_sorted.head(top_k)
														
 
															-
														
 
															-    X = df_topk[features]
														
 
															-    y = df_topk[target]
														
 
															-
														
 
															-    # 获取 Top K 对应的曝光阈值
														
 
															-    exposure_threshold = df_topk[exposure_col].min()
														
 
															-
														
 
															-    return X, y, exposure_threshold,df_topk
														
 
															-
														
 
															-# 3. 计算相关系数
														
 
															-def calculate_correlations(df, features, target):
														
 
															-    correlations = {}
														
 
															-    for feature in features:
														
 
															-        # 删除 target 或 feature 列中任一为空的行
														
 
															-        valid_data = df[[target, feature]].dropna()
														
 
															-
														
 
															-        # 如果没有有效数据，相关系数设为 0
														
 
															-        if len(valid_data) == 0:
														
 
															-            correlations[feature] = 0
														
 
															-        else:
														
 
															-            # 计算相关系数
														
 
															-            corr = valid_data[target].corr(valid_data[feature])
														
 
															-            correlations[feature] = corr if not np.isnan(corr) else 0
														
 
															-
														
 
															-    # 转换为 Series 并按绝对值大小排序
														
 
															-    corr_series = pd.Series(correlations).abs().sort_values(ascending=False)
														
 
															-    return corr_series
														
 
															-
														
 
															-
														
 
															-# 4. 定义动态加权和函数
														
 
															-def dynamic_weighted_sum(features, weights):
														
 
															-    valid_features = ~np.isnan(features)
														
 
															-    if np.sum(valid_features) == 0:
														
 
															-        return np.nan
														
 
															-    normalized_weights = weights[valid_features] / np.sum(weights[valid_features])
														
 
															-    return np.sum(features[valid_features] * normalized_weights)
														
 
															-
														
 
															-# 5. 定义损失函数
														
 
															-def mse_loss(y_true, y_pred):
														
 
															-    valid = ~np.isnan(y_true) & ~np.isnan(y_pred)
														
 
															-    return np.mean((y_true[valid] - y_pred[valid])**2)
														
 
															-
														
 
															-# 6. 定义目标函数
														
 
															-def objective(weights, X, y_true):
														
 
															-    y_pred = np.array([dynamic_weighted_sum(x, weights) for x in X.values])
														
 
															-    return mse_loss(y_true, y_pred)
														
 
															-
														
 
															-# 7. 搜索最佳权重
														
 
															-def find_best_weights(X, y, initial_weights):
														
 
															-    result = minimize(objective, initial_weights, args=(X, y), method='Nelder-Mead')
														
 
															-    return result.x
														
 
															-
														
 
															-# 8. 评估模型
														
 
															-def evaluate_model(X, y, weights):
														
 
															-    y_pred = np.array([dynamic_weighted_sum(x, weights) for x in X.values])
														
 
															-    valid = ~np.isnan(y) & ~np.isnan(y_pred)
														
 
															-    r2 = r2_score(y[valid], y_pred[valid])
														
 
															-    mse = mse_loss(y, y_pred)
														
 
															-    return r2, mse
														
 
															-
														
 
															-# 9. 保存模型
														
 
															-def save_model(weights, features, exposure_threshold,top_k, file_path):
														
 
															-    model = {
														
 
															-        'weights': weights,
														
 
															-        'features': features,
														
 
															-        'exposure_threshold': exposure_threshold,
														
 
															-        'top_k':top_k
														
 
															-    }
														
 
															-    with open(file_path, 'wb') as f:
														
 
															-        pickle.dump(model, f)
														
 
															-
														
 
															-# 10. 加载模型
														
 
															-def load_model(file_path):
														
 
															-    with open(file_path, 'rb') as f:
														
 
															-        model = pickle.load(f)
														
 
															-    return model['weights'], model['features'], model['exposure_threshold'],model['top_k']
														
 
															-
														
 
															-
														
 
															-
														
 
															-# 12. 主函数
														
 
															-def main():
														
 
															-    # 加载数据
														
 
															-    df = load_data('train_20240921.csv')
														
 
															-
														
 
															-    # 定义特征、目标变量和曝光量列
														
 
															-    features = ['h1_ago_vov', 'h2_ago_vov', 'h3_ago_vov', 'h24_ago_vov', 'h48_ago_vov', 'd1_ago_vov', 'd2_ago_vov']
														
 
															-    target = 'cur_hour_vov'
														
 
															-    exposure_col = 'h1_ago_view'  # 请确保你的数据中有这个列
														
 
															-    top_k = 1000  # 设置你想要使用的 Top k 数据点数量
														
 
															-
														
 
															-    # 预处理数据
														
 
															-    X, y, exposure_threshold,df_topk = preprocess_data(df, features, target, exposure_col, top_k)
														
 
															-
														
 
															-    # 划分训练集和测试集
														
 
															-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
														
 
															-
														
 
															-    # 计算相关系数
														
 
															-    correlations = calculate_correlations(df_topk, features, target)
														
 
															-    print("Feature correlations:")
														
 
															-    print(correlations)
														
 
															-
														
 
															-    # 使用相关系数作为初始权重
														
 
															-    initial_weights = correlations[features].values
														
 
															-
														
 
															-    # 搜索最佳权重
														
 
															-    best_weights = find_best_weights(X_train, y_train, initial_weights)
														
 
															-
														
 
															-    # 评估模型
														
 
															-    r2_train, mse_train = evaluate_model(X_train, y_train, best_weights)
														
 
															-    r2_test, mse_test = evaluate_model(X_test, y_test, best_weights)
														
 
															-
														
 
															-    print(f"\nTrain R² Score: {r2_train:.4f}, MSE: {mse_train:.4f}")
														
 
															-    print(f"Test R² Score: {r2_test:.4f}, MSE: {mse_test:.4f}")
														
 
															-
														
 
															-    # 输出特征重要性
														
 
															-    print("\nFeature importance:")
														
 
															-    for feature, weight in zip(features, best_weights):
														
 
															-        print(f"{feature}: {weight:.4f}")
														
 
															-
														
 
															-    # 保存模型
														
 
															-    save_model(pd.Series(best_weights, index=features), features, exposure_threshold,top_k, 'top'+str(top_k)+'_linear_weighted_model.pkl')
														
 
															-
														
 
															-    # 测试加载模型
														
 
															-    loaded_weights, loaded_features, loaded_threshold,topk = load_model('top'+str(top_k)+'_linear_weighted_model.pkl')
														
 
															-    print("\nLoaded model weights:")
														
 
															-    for feature, weight in loaded_weights.items():
														
 
															-        print(f"{feature}: {weight:.4f}")
														
 
															-    print(f"Exposure threshold: {loaded_threshold}")
														
 
															-    print(f"TopK: {topk}")
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    main()
														
--- a/vov/vov_h24_analyse.py
+++ b/vov/vov_h24_analyse.py
@@ -1,192 +0,0 @@
 
															-import numpy as np
														
 
															-import pandas as pd
														
 
															-from scipy.optimize import minimize
														
 
															-from sklearn.metrics import r2_score
														
 
															-from sklearn.model_selection import train_test_split
														
 
															-import pickle
														
 
															-
														
 
															-all_feature_names = ["1_vovh0", "2_vovh0", "2_vovh1", "3_vovh0", "3_vovh1", "3_vovh2", "4_vovh0", "4_vovh1", "4_vovh2",
														
 
															-                     "4_vovh3", "6_vovh0", "6_vovh1", "6_vovh6", "12_vovh0", "12_vovh1", "12_vovh12", "24_vovh0",
														
 
															-                     "24_vovh1", "24_vovh2", "24_vovh3", "24_vovh6", "24_vovh12", "24_vovh24", "48_vovh0", "48_vovh1",
														
 
															-                     "48_vovh2", "48_vovh3", "48_vovh6", "48_vovh12", "48_vovh24", "48_vovh48", "1_vovd0", "2_vovd0",
														
 
															-                     "3_vovd0", "4_vovd0", "5_vovd0", "2_vovd1", "3_vovd1", "4_vovd1", "5_vovd1", "3_vovd2", "4_vovd2",
														
 
															-                     "5_vovd2", "1_vovh_分母", "1_vovh0分子", "2_vovh_分母", "2_vovh0分子", "2_vovh1分子",
														
 
															-                     "3_vovh_分母", "3_vovh0分子", "3_vovh1分子", "3_vovh2分子", "4_vovh_分母", "4_vovh0分子",
														
 
															-                     "4_vovh1分子", "4_vovh2分子", "4_vovh3分子", "6_vovh_分母", "6_vovh0分子", "6_vovh1分子",
														
 
															-                     "6_vovh6分子", "12_vovh_分母", "12_vovh0分子", "12_vovh1分子", "12_vovh12分子", "24_vovh_分母",
														
 
															-                     "24_vovh0分子", "24_vovh1分子", "24_vovh2分子", "24_vovh3分子", "24_vovh6分子", "24_vovh12分子",
														
 
															-                     "24_vovh24分子", "48_vovh_分母", "48_vovh0分子", "48_vovh1分子", "48_vovh2分子", "48_vovh3分子",
														
 
															-                     "48_vovh6分子", "48_vovh12分子", "48_vovh24分子", "48_vovh48分子", "1_vovd0_分母", "1_vovd0_分子",
														
 
															-                     "2_vovd0_分母", "2_vovd0_分子", "3_vovd0_分母", "3_vovd0_分子", "4_vovd0_分母", "4_vovd0_分子",
														
 
															-                     "5_vovd0_分母", "5_vovd0_分子", "2_vovd1_分母", "2_vovd1_分子", "3_vovd1_分母", "3_vovd1_分子",
														
 
															-                     "4_vovd1_分母", "4_vovd1_分子", "5_vovd1_分母", "5_vovd1_分子", "3_vovd2_分母", "3_vovd2_分子",
														
 
															-                     "4_vovd2_分母", "4_vovd2_分子", "5_vovd2_分母", "5_vovd2_分子"]
														
 
															-
														
 
															-# feature_names = ["1_vovh0",
														
 
															-#                  "2_vovh0", "2_vovh1",
														
 
															-#                  "3_vovh0", "3_vovh1", "3_vovh2",
														
 
															-#                  "4_vovh0", "4_vovh1", "4_vovh2", "4_vovh3",
														
 
															-#                  "6_vovh0", "6_vovh1", "6_vovh6",
														
 
															-#                  "12_vovh0", "12_vovh1", "12_vovh12",
														
 
															-#                  "24_vovh0", "24_vovh1", "24_vovh2", "24_vovh3", "24_vovh6", "24_vovh12", "24_vovh24",
														
 
															-#                  "48_vovh0", "48_vovh1", "48_vovh2", "48_vovh3", "48_vovh6", "48_vovh12", "48_vovh24", "48_vovh48",
														
 
															-#                  "1_vovd0", "2_vovd0", "3_vovd0",
														
 
															-#                  "2_vovd1", "3_vovd1"
														
 
															-#                  ]
														
 
															-
														
 
															-feature_names = ["1_vovh0",
														
 
															-                 "2_vovh0", "2_vovh1",
														
 
															-                 "3_vovh1", "3_vovh2",
														
 
															-                 "4_vovh1", "4_vovh3",
														
 
															-                 "6_vovh1", "6_vovh6",
														
 
															-                 "12_vovh1", "12_vovh12",
														
 
															-                 "24_vovh1", "24_vovh2", "24_vovh3", "24_vovh6", "24_vovh12", "24_vovh24",
														
 
															-                 "48_vovh1", "48_vovh2", "48_vovh3", "48_vovh6", "48_vovh12", "48_vovh24", "48_vovh48",
														
 
															-                 "1_vovd0",
														
 
															-                 "2_vovd1", "3_vovd1"
														
 
															-                 ]
														
 
															-
														
 
															-dt_list = ['20241014', '20241015', '20241016']
														
 
															-hh_list = ["00", "01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12",
														
 
															-           "13", "14", "15", "16", "17", "18", "19", "20", "21", "22", "23"]
														
 
															-
														
 
															-pd.set_option('display.max_rows', None)  # 显示所有行
														
 
															-pd.set_option('display.max_columns', None)  # 显示所有列
														
 
															-
														
 
															-
														
 
															-# 1. 加载数据
														
 
															-def load_data(filepath: str) -> pd.DataFrame:
														
 
															-    return pd.read_csv(filepath)
														
 
															-
														
 
															-
														
 
															-# 2. 数据预处理
														
 
															-def preprocess_data(df, features, target):
														
 
															-    df_sorted = df.sort_values(by=target, ascending=False)
														
 
															-    x = df_sorted[features]
														
 
															-    y = df_sorted[target]
														
 
															-
														
 
															-    top_k = df_sorted.head(100)
														
 
															-
														
 
															-    return x, y, top_k
														
 
															-
														
 
															-
														
 
															-# 3. 计算相关系数
														
 
															-def calculate_correlations(df, features, target):
														
 
															-    correlations = {}
														
 
															-    for feature in features:
														
 
															-        # 删除 target 或 feature 列中任一为空的行
														
 
															-        valid_data = df[[target, feature]].dropna()
														
 
															-
														
 
															-        # 如果没有有效数据，相关系数设为 0
														
 
															-        if len(valid_data) == 0:
														
 
															-            correlations[feature] = 0
														
 
															-        else:
														
 
															-            # 计算相关系数
														
 
															-            corr = valid_data[target].corr(valid_data[feature])
														
 
															-            correlations[feature] = corr if not np.isnan(corr) else 0
														
 
															-
														
 
															-    # 转换为 Series 并按绝对值大小排序
														
 
															-    corr_series = pd.Series(correlations).abs().sort_values(ascending=False)
														
 
															-    return corr_series
														
 
															-
														
 
															-
														
 
															-# 4. 定义动态加权和函数
														
 
															-def dynamic_weighted_sum(features, weights):
														
 
															-    valid_features = ~np.isnan(features)
														
 
															-    if np.sum(valid_features) == 0:
														
 
															-        return np.nan
														
 
															-    normalized_weights = weights[valid_features] / np.sum(weights[valid_features])
														
 
															-    return np.sum(features[valid_features] * normalized_weights)
														
 
															-
														
 
															-
														
 
															-# 5. 定义损失函数
														
 
															-def mse_loss(y_true, y_pred):
														
 
															-    valid = ~np.isnan(y_true) & ~np.isnan(y_pred)
														
 
															-    return np.mean((y_true[valid] - y_pred[valid]) ** 2)
														
 
															-
														
 
															-
														
 
															-# 6. 定义目标函数
														
 
															-def objective(weights, X, y_true):
														
 
															-    y_pred = np.array([dynamic_weighted_sum(x, weights) for x in X.values])
														
 
															-    return mse_loss(y_true, y_pred)
														
 
															-
														
 
															-
														
 
															-# 7. 搜索最佳权重
														
 
															-def find_best_weights(X, y, initial_weights):
														
 
															-    result = minimize(objective, initial_weights, args=(X, y), method='Nelder-Mead')
														
 
															-    return result.x
														
 
															-
														
 
															-
														
 
															-# 8. 评估模型
														
 
															-def evaluate_model(X, y, weights):
														
 
															-    y_pred = np.array([dynamic_weighted_sum(x, weights) for x in X.values])
														
 
															-    valid = ~np.isnan(y) & ~np.isnan(y_pred)
														
 
															-    r2 = r2_score(y[valid], y_pred[valid])
														
 
															-    mse = mse_loss(y, y_pred)
														
 
															-    return r2, mse
														
 
															-
														
 
															-
														
 
															-# 9. 保存模型
														
 
															-def save_model(weights, features, file_path):
														
 
															-    model = {
														
 
															-        'weights': weights,
														
 
															-        'features': features,
														
 
															-    }
														
 
															-    with open(file_path, 'wb') as f:
														
 
															-        pickle.dump(model, f)
														
 
															-
														
 
															-
														
 
															-# 10. 加载模型
														
 
															-def load_model(file_path):
														
 
															-    with open(file_path, 'rb') as f:
														
 
															-        model = pickle.load(f)
														
 
															-    return model['weights'], model['features']
														
 
															-
														
 
															-
														
 
															-def single_dt_handle(dt, df: pd.DataFrame):
														
 
															-    x, y, top_key = preprocess_data(df, feature_names, "vovh24")
														
 
															-    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)
														
 
															-    correl = calculate_correlations(top_key, feature_names, "vovh24")
														
 
															-    print(f"{dt}   Feature Correlations: ")
														
 
															-    print(correl.head(5))
														
 
															-
														
 
															-    initial_weights = correl[feature_names].values
														
 
															-    best_weights = find_best_weights(x_train, y_train, initial_weights)
														
 
															-    # 评估模型
														
 
															-    r2_train, mse_train = evaluate_model(x_train, y_train, best_weights)
														
 
															-    r2_test, mse_test = evaluate_model(x_test, y_test, best_weights)
														
 
															-
														
 
															-    print(f"\nTrain R² Score: {r2_train:.4f}, MSE: {mse_train:.4f}")
														
 
															-    print(f"Test R² Score: {r2_test:.4f}, MSE: {mse_test:.4f}")
														
 
															-
														
 
															-    # 输出特征重要性
														
 
															-    print("\nFeature importance:")
														
 
															-    for feature, weight in zip(feature_names, best_weights):
														
 
															-        print(f"{feature}: {weight:.4f}")
														
 
															-
														
 
															-    # 保存模型
														
 
															-    save_model(pd.Series(best_weights, index=feature_names), feature_names,
														
 
															-               '/Users/zhao/Desktop/vov/model/vovh24_linear_weighted_model.pkl')
														
 
															-
														
 
															-    # 测试加载模型
														
 
															-    loaded_weights, loaded_features = load_model('/Users/zhao/Desktop/vov/model/vovh24_linear_weighted_model.pkl')
														
 
															-    print("\nLoaded model weights:")
														
 
															-    for feature, weight in loaded_weights.items():
														
 
															-        print(f"{feature}: {weight:.4f}")
														
 
															-
														
 
															-
														
 
															-def _main():
														
 
															-    df_dict = {}
														
 
															-    for dt in dt_list:
														
 
															-        for hh in hh_list:
														
 
															-            key = f"{dt}{hh}"
														
 
															-            df = load_data(f"/Users/zhao/Desktop/vov/{key}.csv")
														
 
															-            df_dict[key] = df
														
 
															-
														
 
															-    for key in df_dict:
														
 
															-        single_dt_handle(key, df_dict[key])
														
 
															-        return
														
 
															-
														
 
															-
														
 
															-if __name__ == '__main__':
														
 
															-    _main()
	`@@ -1 +0,0 @@`
	`-用于存放XGB模型的一些过程文件`