3 år sedan · 653c30f61c
--- a/config.py
+++ b/config.py
@@ -128,14 +128,14 @@ class BaseConfig(object):
 
															     # ##### 区分appType数据
														
 
															     DATA_PARAMS = {
														
 
															-        'data1': [APP_TYPE['VLOG'], ],  # vlog
														
 
															-        'data2': [APP_TYPE['VLOG'], APP_TYPE['LONG_VIDEO'], ],  # [vlog, 内容精选]
														
 
															-        'data3': [APP_TYPE['VLOG'], APP_TYPE['LOVE_LIVE'], ],  # [vlog, 票圈视频]
														
 
															-        'data4': [APP_TYPE['VLOG'], APP_TYPE['SHORT_VIDEO'], ],  # [vlog, 票圈短视频]
														
 
															-        'data5': [APP_TYPE['VLOG'], APP_TYPE['ZUI_JING_QI']],  # [vlog, 最惊奇]
														
 
															-        'data6': [APP_TYPE['VLOG'], APP_TYPE['LOVE_LIVE'], APP_TYPE['LONG_VIDEO'], APP_TYPE['SHORT_VIDEO']],
														
 
															-        'data7': [APP_TYPE['VLOG'], APP_TYPE['LOVE_LIVE'], APP_TYPE['LONG_VIDEO'], APP_TYPE['SHORT_VIDEO'],
														
 
															-                  APP_TYPE['APP']],
														
 
															+        'data1': {APP_TYPE['VLOG']: 0},  # vlog
														
 
															+        'data2': {APP_TYPE['VLOG']: 0, APP_TYPE['LONG_VIDEO']: 0},  # [vlog, 内容精选]
														
 
															+        # 'data3': [APP_TYPE['VLOG'], APP_TYPE['LOVE_LIVE'], ],  # [vlog, 票圈视频]
														
 
															+        # 'data4': [APP_TYPE['VLOG'], APP_TYPE['SHORT_VIDEO'], ],  # [vlog, 票圈短视频]
														
 
															+        # 'data5': [APP_TYPE['VLOG'], APP_TYPE['ZUI_JING_QI']],  # [vlog, 最惊奇]
														
 
															+        'data6': {APP_TYPE['VLOG']: 0.25, APP_TYPE['LOVE_LIVE']: 0.25, APP_TYPE['LONG_VIDEO']: 0.25, APP_TYPE['SHORT_VIDEO']: 0.25},
														
 
															+        # 'data7': [APP_TYPE['VLOG'], APP_TYPE['LOVE_LIVE'], APP_TYPE['LONG_VIDEO'], APP_TYPE['SHORT_VIDEO'],
														
 
															+        #           APP_TYPE['APP']],
														
 
															     }
														
 
															     # 小时级更新过去48h数据 loghubods.video_data_each_hour_dataset_48h_total_apptype
														
@@ -166,6 +166,8 @@ class BaseConfig(object):
 
															                       'view_type': 'preview'},
														
 
															             'rule3': {'cal_score_func': 2, 'return_count': 100, 'platform_return_rate': 0.001,
														
 
															                       'view_type': 'preview'},
														
 
															+            'rule4': {'cal_score_func': 2, 'return_count': 100, 'platform_return_rate': 0.001,
														
 
															+                      'view_type': 'preview', 'merge_func': 2},
														
 
															         },
														
 
															         'data_params': DATA_PARAMS,
														
 
															         'params_list': [
														
@@ -177,6 +179,7 @@ class BaseConfig(object):
 
															             # {'data': 'data4', 'rule': 'rule2'},
														
 
															             # {'data': 'data7', 'rule': 'rule2'},
														
 
															             # {'data': 'data6', 'rule': 'rule2'},
														
 
															+            {'data': 'data6', 'rule': 'rule4'},
														
 
															         ]
														
 
															     }
														
@@ -191,6 +194,8 @@ class BaseConfig(object):
 
															                       'platform_return_rate': 0.001},
														
 
															             'rule3': {'view_type': 'preview', 'return_count': 21, 'score_rule': 0,
														
 
															                       'platform_return_rate': 0.001},
														
 
															+            'rule4': {'view_type': 'video-show', 'return_count': 21, 'score_rule': 0,
														
 
															+                      'platform_return_rate': 0.001, 'merge_func': 2},
														
 
															         },
														
 
															         'data_params': DATA_PARAMS,
														
 
															         'params_list': [
														
@@ -200,6 +205,7 @@ class BaseConfig(object):
 
															             # {'data': 'data4', 'rule': 'rule2'},
														
 
															             # {'data': 'data6', 'rule': 'rule2'},
														
 
															             # {'data': 'data7', 'rule': 'rule3'},
														
 
															+            {'data': 'data6', 'rule': 'rule4'},
														
 
															         ]
														
 
															     }
														
@@ -767,8 +773,8 @@ class ProductionConfig(BaseConfig):
 
															 def set_config():
														
 
															     # 获取环境变量 ROV_OFFLINE_ENV
														
 
															-    env = os.environ.get('ROV_OFFLINE_ENV')
														
 
															-    # env = 'dev'
														
 
															+    # env = os.environ.get('ROV_OFFLINE_ENV')
														
 
															+    env = 'dev'
														
 
															     if env is None:
														
 
															         # log_.error('ENV ERROR: is None!')
														
 
															         return
														
--- a/region_rule_rank_h_by24h.py
+++ b/region_rule_rank_h_by24h.py
@@ -197,6 +197,21 @@ def merge_df(df_left, df_right):
 
															     return df_merged[feature_list]
														
 
															+def merge_df_with_score(df_left, df_right):
														
 
															+    """
														
 
															+    df 按照videoid合并，平台回流人数、回流人数、分数 分别求和
														
 
															+    :param df_left:
														
 
															+    :param df_right:
														
 
															+    :return:
														
 
															+    """
														
 
															+    df_merged = pd.merge(df_left, df_right, on=['videoid', 'code'], how='outer', suffixes=['_x', '_y'])
														
 
															+    df_merged.fillna(0, inplace=True)
														
 
															+    feature_list = ['videoid', 'code', 'lastday_return', 'platform_return', 'score']
														
 
															+    for feature in feature_list[2:]:
														
 
															+        df_merged[feature] = df_merged[f'{feature}_x'] + df_merged[f'{feature}_y']
														
 
															+    return df_merged[feature_list]
														
 
															+
														
 
															+
														
 
															 def process_with_region(region, df_merged, data_key, rule_key, rule_param, now_date, now_h):
														
 
															     log_.info(f"region = {region} start...")
														
 
															     # 计算score
														
@@ -208,6 +223,15 @@ def process_with_region(region, df_merged, data_key, rule_key, rule_param, now_d
 
															     log_.info(f"region = {region} end!")
														
 
															+def process_with_region2(region, df_merged, data_key, rule_key, rule_param, now_date, now_h):
														
 
															+    log_.info(f"region = {region} start...")
														
 
															+    region_score_df = df_merged[df_merged['code'] == region]
														
 
															+    log_.info(f'region = {region}, region_score_df count = {len(region_score_df)}')
														
 
															+    video_rank(df=region_score_df, now_date=now_date, now_h=now_h, region=region,
														
 
															+               rule_key=rule_key, param=rule_param, data_key=data_key)
														
 
															+    log_.info(f"region = {region} end!")
														
 
															+
														
 
															+
														
 
															 def process_with_app_type(app_type, params, region_code_list, feature_df, now_date, now_h):
														
 
															     log_.info(f"app_type = {app_type} start...")
														
 
															     data_params_item = params.get('data_params')
														
@@ -233,22 +257,38 @@ def process_with_app_type(app_type, params, region_code_list, feature_df, now_da
 
															 def process_with_param(param, data_params_item, rule_params_item, region_code_list, feature_df, now_date, now_h):
														
 
															     log_.info(f"param = {param} start...")
														
 
															-
														
 
															     data_key = param.get('data')
														
 
															     data_param = data_params_item.get(data_key)
														
 
															     log_.info(f"data_key = {data_key}, data_param = {data_param}")
														
 
															-    df_list = [feature_df[feature_df['apptype'] == apptype] for apptype in data_param]
														
 
															-    df_merged = reduce(merge_df, df_list)
														
 
															-
														
 
															     rule_key = param.get('rule')
														
 
															     rule_param = rule_params_item.get(rule_key)
														
 
															     log_.info(f"rule_key = {rule_key}, rule_param = {rule_param}")
														
 
															-    task_list = [
														
 
															-        gevent.spawn(process_with_region, region, df_merged, data_key, rule_key, rule_param, now_date, now_h)
														
 
															-        for region in region_code_list
														
 
															-    ]
														
 
															-    gevent.joinall(task_list)
														
 
															+    merge_func = rule_param.get('merge_func', None)
														
 
															+    if merge_func == 2:
														
 
															+        score_df_list = []
														
 
															+        for apptype, weight in data_param.items():
														
 
															+            df = feature_df[feature_df['apptype'] == apptype]
														
 
															+            # 计算score
														
 
															+            score_df = cal_score(df=df, param=rule_param)
														
 
															+            score_df['score'] = score_df['score'] * weight
														
 
															+            score_df_list.append(score_df)
														
 
															+        # 分数合并
														
 
															+        df_merged = reduce(merge_df_with_score, score_df_list)
														
 
															+        # 更新平台回流比
														
 
															+        df_merged['platform_return_rate'] = df_merged['platform_return'] / df_merged['lastday_return']
														
 
															+        task_list = [
														
 
															+            gevent.spawn(process_with_region2, region, df_merged, data_key, rule_key, rule_param, now_date, now_h)
														
 
															+            for region in region_code_list
														
 
															+        ]
														
 
															+    else:
														
 
															+        df_list = [feature_df[feature_df['apptype'] == apptype] for apptype in data_param]
														
 
															+        df_merged = reduce(merge_df, df_list)
														
 
															+        task_list = [
														
 
															+            gevent.spawn(process_with_region, region, df_merged, data_key, rule_key, rule_param, now_date, now_h)
														
 
															+            for region in region_code_list
														
 
															+        ]
														
 
															+    gevent.joinall(task_list)
														
 
															     log_.info(f"param = {param} end!")
														
@@ -261,7 +301,7 @@ def rank_by_24h(project, table, now_date, now_h, rule_params, region_code_list):
 
															     rule_params_item = rule_params.get('rule_params')
														
 
															     params_list = rule_params.get('params_list')
														
 
															     pool = multiprocessing.Pool(processes=len(params_list))
														
 
															-    for param in params_list:
														
 
															+    for param in params_list[1:]:
														
 
															         pool.apply_async(
														
 
															             func=process_with_param,
														
 
															             args=(param, data_params_item, rule_params_item, region_code_list, feature_df, now_date, now_h)
														
--- a/rule_rank_h_by_24h.py
+++ b/rule_rank_h_by_24h.py
@@ -178,7 +178,7 @@ def video_rank_h(df, now_date, now_h, rule_key, param, data_key):
 
															         # 清空线上过滤应用列表
														
 
															         # redis_helper.del_keys(key_name=f"{config_.H_VIDEO_FILER_24H}{app_type}.{data_key}.{rule_key}")
														
 
															-    if rule_key == 'rule3':
														
 
															+    if rule_key in ['rule3', 'rule4']:
														
 
															         # 去重筛选结果，保留剩余数据并写入Redis
														
 
															         all_videos = df['videoid'].to_list()
														
 
															         log_.info(f'h_by24h_recall all videos count = {len(all_videos)}')
														
@@ -232,6 +232,21 @@ def merge_df(df_left, df_right):
 
															     return df_merged[feature_list]
														
 
															+def merge_df_with_score(df_left, df_right):
														
 
															+    """
														
 
															+    df 按照videoid合并，平台回流人数、回流人数、分数 分别求和
														
 
															+    :param df_left:
														
 
															+    :param df_right:
														
 
															+    :return:
														
 
															+    """
														
 
															+    df_merged = pd.merge(df_left, df_right, on=['videoid'], how='outer', suffixes=['_x', '_y'])
														
 
															+    df_merged.fillna(0, inplace=True)
														
 
															+    feature_list = ['videoid', '回流人数', 'platform_return', 'score']
														
 
															+    for feature in feature_list[1:]:
														
 
															+        df_merged[feature] = df_merged[f'{feature}_x'] + df_merged[f'{feature}_y']
														
 
															+    return df_merged[feature_list]
														
 
															+
														
 
															+
														
 
															 def rank_by_h(now_date, now_h, rule_params, project, table):
														
 
															     # 获取特征数据
														
 
															     feature_df = get_feature_data(now_date=now_date, now_h=now_h, project=project, table=table)
														
@@ -239,6 +254,7 @@ def rank_by_h(now_date, now_h, rule_params, project, table):
 
															     # rank
														
 
															     data_params_item = rule_params.get('data_params')
														
 
															     rule_params_item = rule_params.get('rule_params')
														
 
															+    """
														
 
															     for param in rule_params.get('params_list'):
														
 
															         data_key = param.get('data')
														
 
															         data_param = data_params_item.get(data_key)
														
@@ -257,31 +273,46 @@ def rank_by_h(now_date, now_h, rule_params, project, table):
 
															             score_df = cal_score1(df=df_merged)
														
 
															         video_rank_h(df=score_df, now_date=now_date, now_h=now_h,
														
 
															                      rule_key=rule_key, param=rule_param, data_key=data_key)
														
 
															-
														
 
															     """
														
 
															-    for app_type, params in rule_params.items():
														
 
															-        log_.info(f"app_type = {app_type}")
														
 
															-        data_params_item = params.get('data_params')
														
 
															-        rule_params_item = params.get('rule_params')
														
 
															-        for param in params.get('params_list'):
														
 
															-            data_key = param.get('data')
														
 
															-            data_param = data_params_item.get(data_key)
														
 
															-            log_.info(f"data_key = {data_key}, data_param = {data_param}")
														
 
															-            df_list = [feature_df[feature_df['apptype'] == apptype] for apptype in data_param]
														
 
															-            df_merged = reduce(merge_df, df_list)
														
 
															-            rule_key = param.get('rule')
														
 
															-            rule_param = rule_params_item.get(rule_key)
														
 
															-            log_.info(f"rule_key = {rule_key}, rule_param = {rule_param}")
														
 
															-            # 计算score
														
 
															-            cal_score_func = rule_param.get('cal_score_func', 1)
														
 
															+    for param in rule_params.get('params_list'):
														
 
															+        score_df_list = []
														
 
															+        data_key = param.get('data')
														
 
															+        data_param = data_params_item.get(data_key)
														
 
															+        log_.info(f"data_key = {data_key}, data_param = {data_param}")
														
 
															+        rule_key = param.get('rule')
														
 
															+        rule_param = rule_params_item.get(rule_key)
														
 
															+        log_.info(f"rule_key = {rule_key}, rule_param = {rule_param}")
														
 
															+        cal_score_func = rule_param.get('cal_score_func', 1)
														
 
															+        merge_func = rule_param.get('merge_func', 1)
														
 
															+
														
 
															+        if merge_func == 2:
														
 
															+            for apptype, weight in data_param.items():
														
 
															+                df = feature_df[feature_df['apptype'] == apptype]
														
 
															+                # 计算score
														
 
															+                if cal_score_func == 2:
														
 
															+                    score_df = cal_score2(df=df, param=rule_param)
														
 
															+                else:
														
 
															+                    score_df = cal_score1(df=df)
														
 
															+                score_df['score'] = score_df['score'] * weight
														
 
															+                score_df_list.append(score_df)
														
 
															+            # 分数合并
														
 
															+            df_merged = reduce(merge_df_with_score, score_df_list)
														
 
															+            # 更新平台回流比
														
 
															+            df_merged['platform_return_rate'] = df_merged['platform_return'] / df_merged['回流人数']
														
 
															+            video_rank_h(df=df_merged, now_date=now_date, now_h=now_h,
														
 
															+                         rule_key=rule_key, param=rule_param, data_key=data_key)
														
 
															+
														
 
															+        else:
														
 
															+            df_list = [feature_df[feature_df['apptype'] == apptype] for apptype, _ in data_param.items()]
														
 
															+            df_merged = reduce(merge_df, df_list)
														
 
															             if cal_score_func == 2:
														
 
															                 score_df = cal_score2(df=df_merged, param=rule_param)
														
 
															             else:
														
 
															                 score_df = cal_score1(df=df_merged)
														
 
															-            video_rank_h(df=score_df, now_date=now_date, now_h=now_h, rule_key=rule_key, param=rule_param,
														
 
															-                         app_type=app_type, data_key=data_key)
														
 
															-    """
														
 
															+            video_rank_h(df=score_df, now_date=now_date, now_h=now_h,
														
 
															+                         rule_key=rule_key, param=rule_param, data_key=data_key)
														
 
															+
														
 
															     #     # to-csv
														
 
															     #     score_filename = f"score_by24h_{key}_{datetime.strftime(now_date, '%Y%m%d%H')}.csv"
														
 
															     #     score_df.to_csv(f'./data/{score_filename}')