3 年之前 · 0e495a23f8
--- a/config.py
+++ b/config.py
@@ -101,7 +101,7 @@ class BaseConfig(object):
 
				 
			
 
				     # 小程序天级规则参数
			
 
				     RULE_PARAMS_DAY = {
			
 
				-        'rule1': {'return_count': 200},
			
 
				+        # 'rule1': {'return_count': 200},
			
 
				         'rule2': {'cal_score_func': 2, 'return_count': 100},
			
 
				     }
			
 
				 
			
@@ -115,6 +115,15 @@ class BaseConfig(object):
 
				         'rule1': {'view_type': 'pre-view'},
			
 
				     }
			
 
				 
			
 
				+    # 地域分组天级规则更新使用数据
			
 
				+    PROJECT_REGION_DAY = 'loghubods'
			
 
				+    TABLE_REGION_DAY = 'video_each_day_update_province'
			
 
				+
			
 
				+    # 地域分组天级规则参数
			
 
				+    RULE_PARAMS_REGION_DAY = {
			
 
				+        'rule1': {'view_type': 'pre-view', 'return_count': 1, 'score_rule': 0},
			
 
				+    }
			
 
				+
			
 
				     # 老视频更新使用数据
			
 
				     OLD_VIDEOS_PROJECT = 'loghubods'
			
 
				     OLD_VIDEOS_TABLE = 'xcx_test_video'
			
@@ -140,12 +149,21 @@ class BaseConfig(object):
 
				 
			
 
				     # 小程序地域分组小时级更新结果存放 redis key前缀，完整格式：com.weiqu.video.recall.item.score.region.h.{region}.{rule_key}.{date}.{h}
			
 
				     RECALL_KEY_NAME_PREFIX_REGION_BY_H = 'com.weiqu.video.recall.item.score.region.h.'
			
 
				-    # 小程序离线ROV模型结果与小程序地域分组小时级更新结果去重后 存放 redis key前缀，
			
 
				+    # 小程序地域分组天级更新结果与小程序地域分组小时级更新结果去重后 存放 redis key前缀，
			
 
				+    # 完整格式：com.weiqu.video.recall.hot.item.score.dup1.region.day.h.{region}.{rule_key}.{date}.{h}
			
 
				+    RECALL_KEY_NAME_PREFIX_DUP1_REGION_DAY_H = 'com.weiqu.video.recall.hot.item.score.dup1.region.day.h.'
			
 
				+    # 小程序天级更新结果与 小程序地域分组天级更新结果/小程序地域分组小时级更新结果 去重后 存放 redis key前缀，
			
 
				+    # 完整格式：com.weiqu.video.recall.hot.item.score.dup2.region.day.h.{region}.{rule_key}.{date}.{h}
			
 
				+    RECALL_KEY_NAME_PREFIX_DUP2_REGION_DAY_H = 'com.weiqu.video.recall.hot.item.score.dup2.region.day.h.'
			
 
				+    # 小程序离线ROV模型结果与 小程序天级更新结果/小程序地域分组天级更新结果/小程序地域分组小时级更新结果 去重后 存放 redis key前缀，
			
 
				     # 完整格式：com.weiqu.video.recall.hot.item.score.dup.region.h.{region}.{rule_key}.{date}.{h}
			
 
				     RECALL_KEY_NAME_PREFIX_DUP_REGION_H = 'com.weiqu.video.recall.hot.item.score.dup.region.h.'
			
 
				     # 地域分组小时级视频状态不符合推荐要求的列表 redis key，完整格式：com.weiqu.video.filter.region.h.item.{region}.{rule_key}
			
 
				     REGION_H_VIDEO_FILER = 'com.weiqu.video.filter.region.h.item.'
			
 
				 
			
 
				+    # 小程序地域分组天级更新结果存放 redis key前缀，完整格式：com.weiqu.video.recall.item.score.region.day.{region}.{rule_key}.{date}
			
 
				+    RECALL_KEY_NAME_PREFIX_REGION_BY_DAY = 'com.weiqu.video.recall.item.score.region.day.'
			
 
				+
			
 
				     # 小程序老视频更新结果存放 redis key 前缀，完整格式：'com.weiqu.video.recall.old.item.{date}'
			
 
				     RECALL_KEY_NAME_PREFIX_OLD_VIDEOS = 'com.weiqu.video.recall.old.item.'
			
 
				 
			
--- a/region_rule_rank_day.py
+++ b/region_rule_rank_day.py
@@ -0,0 +1,209 @@
 
				+# -*- coding: utf-8 -*-
			
 
				+# @ModuleName: region_rule_rank_h
			
 
				+# @Author: Liqian
			
 
				+# @Time: 2022/5/5 15:54
			
 
				+# @Software: PyCharm
			
 
				+
			
 
				+import datetime
			
 
				+import pandas as pd
			
 
				+import math
			
 
				+from odps import ODPS
			
 
				+from threading import Timer
			
 
				+from utils import RedisHelper, get_data_from_odps
			
 
				+from config import set_config
			
 
				+from log import Log
			
 
				+
			
 
				+config_, _ = set_config()
			
 
				+log_ = Log()
			
 
				+
			
 
				+region_code = {
			
 
				+    '河北省': '130000',
			
 
				+    '山西省': '140000',
			
 
				+    '辽宁省': '210000',
			
 
				+    '吉林省': '220000',
			
 
				+    '黑龙江省': '230000',
			
 
				+    '江苏省': '320000',
			
 
				+    '浙江省': '330000',
			
 
				+    '安徽省': '340000',
			
 
				+    '福建省': '350000',
			
 
				+    '江西省': '360000',
			
 
				+    '山东省': '370000',
			
 
				+    '河南省': '410000',
			
 
				+    '湖北省': '420000',
			
 
				+    '湖南省': '430000',
			
 
				+    '广东省': '440000',
			
 
				+    '海南省': '460000',
			
 
				+    '四川省': '510000',
			
 
				+    '贵州省': '520000',
			
 
				+    '云南省': '530000',
			
 
				+    '陕西省': '610000',
			
 
				+    '甘肃省': '620000',
			
 
				+    '青海省': '630000',
			
 
				+    '台湾省': '710000',
			
 
				+    '北京': '110000',
			
 
				+    '天津': '120000',
			
 
				+    '内蒙古': '150000',
			
 
				+    '上海': '310000',
			
 
				+    '广西': '450000',
			
 
				+    '重庆': '500000',
			
 
				+    '西藏': '540000',
			
 
				+    '宁夏': '640000',
			
 
				+    '新疆': '650000',
			
 
				+    '香港': '810000',
			
 
				+    '澳门': '820000',
			
 
				+}
			
 
				+
			
 
				+features = [
			
 
				+    'code',  # 省份编码
			
 
				+    'videoid',
			
 
				+    'lastday_preview',  # 昨日预曝光人数
			
 
				+    'lastday_view',  # 昨日曝光人数
			
 
				+    'lastday_play',  # 昨日播放人数
			
 
				+    'lastday_share',  # 昨日分享人数
			
 
				+    'lastday_return',  # 昨日回流人数
			
 
				+    'lastday_preview_total',  # 昨日预曝光次数
			
 
				+    'lastday_view_total',  # 昨日曝光次数
			
 
				+    'lastday_play_total',  # 昨日播放次数
			
 
				+    'lastday_share_total',  # 昨日分享次数
			
 
				+]
			
 
				+
			
 
				+
			
 
				+def data_check(project, table, now_date):
			
 
				+    """检查数据是否准备好"""
			
 
				+    odps = ODPS(
			
 
				+        access_id=config_.ODPS_CONFIG['ACCESSID'],
			
 
				+        secret_access_key=config_.ODPS_CONFIG['ACCESSKEY'],
			
 
				+        project=project,
			
 
				+        endpoint=config_.ODPS_CONFIG['ENDPOINT'],
			
 
				+        connect_timeout=3000,
			
 
				+        read_timeout=500000,
			
 
				+        pool_maxsize=1000,
			
 
				+        pool_connections=1000
			
 
				+    )
			
 
				+
			
 
				+    try:
			
 
				+        dt = datetime.datetime.strftime(now_date - datetime.timedelta(days=1), '%Y%m%d')
			
 
				+        sql = f'select * from {project}.{table} where dt = {dt}'
			
 
				+        with odps.execute_sql(sql=sql).open_reader() as reader:
			
 
				+            data_count = reader.count
			
 
				+    except Exception as e:
			
 
				+        data_count = 0
			
 
				+    return data_count
			
 
				+
			
 
				+
			
 
				+def get_feature_data(project, table, now_date):
			
 
				+    """获取特征数据"""
			
 
				+    dt = datetime.datetime.strftime(now_date, '%Y%m%d')
			
 
				+    # dt = '2022041310'
			
 
				+    records = get_data_from_odps(date=dt, project=project, table=table)
			
 
				+    feature_data = []
			
 
				+    for record in records:
			
 
				+        item = {}
			
 
				+        for feature_name in features:
			
 
				+            item[feature_name] = record[feature_name]
			
 
				+        feature_data.append(item)
			
 
				+    feature_df = pd.DataFrame(feature_data)
			
 
				+    return feature_df
			
 
				+
			
 
				+
			
 
				+def cal_score(df):
			
 
				+    """
			
 
				+    计算score
			
 
				+    :param df: 特征数据
			
 
				+    :return:
			
 
				+    """
			
 
				+    # score计算公式: sharerate*backrate*logback*ctr
			
 
				+    # sharerate = lastday_share/(lastday_play+1000)
			
 
				+    # backrate = lastday_return/(lastday_share+10)
			
 
				+    # ctr = lastday_play/(lastday_preview+1000), 对ctr限最大值：K2 = 0.6 if ctr > 0.6 else ctr
			
 
				+    # score = sharerate * backrate * LOG(lastday_return+1) * K2
			
 
				+
			
 
				+    df = df.fillna(0)
			
 
				+    df['share_rate'] = df['lastday_share'] / (df['lastday_play'] + 1000)
			
 
				+    df['back_rate'] = df['lastday_return'] / (df['lastday_share'] + 10)
			
 
				+    df['log_back'] = (df['lastday_return'] + 1).apply(math.log)
			
 
				+    df['ctr'] = df['lastday_play'] / (df['lastday_preview'] + 1000)
			
 
				+    df['K2'] = df['ctr'].apply(lambda x: 0.6 if x > 0.6 else x)
			
 
				+    df['score'] = df['share_rate'] * df['back_rate'] * df['log_back'] * df['K2']
			
 
				+    df = df.sort_values(by=['score'], ascending=False)
			
 
				+    return df
			
 
				+
			
 
				+
			
 
				+def video_rank(df, now_date, rule_key, param, region):
			
 
				+    """
			
 
				+    获取符合进入召回源条件的视频
			
 
				+    :param df:
			
 
				+    :param now_date:
			
 
				+    :param rule_key: 小时级数据进入条件
			
 
				+    :param param: 小时级数据进入条件参数
			
 
				+    :param region: 所属地域
			
 
				+    :return:
			
 
				+    """
			
 
				+    redis_helper = RedisHelper()
			
 
				+    # 获取符合进入召回源条件的视频
			
 
				+    return_count = param.get('return_count', 1)
			
 
				+    score_value = param.get('score_rule', 0)
			
 
				+    h_recall_df = df[(df['lastday_return'] >= return_count) & (df['score'] >= score_value)]
			
 
				+    # videoid重复时，保留分值高
			
 
				+    h_recall_df = h_recall_df.sort_values(by=['score'], ascending=False)
			
 
				+    h_recall_df = h_recall_df.drop_duplicates(subset=['videoid'], keep='first')
			
 
				+    h_recall_videos = h_recall_df['videoid'].to_list()
			
 
				+    log_.info(f'day_recall videos count = {len(h_recall_videos)}')
			
 
				+
			
 
				+    # 写入对应的redis
			
 
				+    day_recall_result = {}
			
 
				+    for video_id in h_recall_videos:
			
 
				+        score = h_recall_df[h_recall_df['videoid'] == video_id]['score']
			
 
				+        # print(score)
			
 
				+        day_recall_result[int(video_id)] = float(score)
			
 
				+    day_recall_key_name = \
			
 
				+        f"{config_.RECALL_KEY_NAME_PREFIX_REGION_BY_DAY}{region}.{rule_key}.{datetime.datetime.strftime(now_date, '%Y%m%d')}"
			
 
				+    if len(day_recall_result) > 0:
			
 
				+        redis_helper.add_data_with_zset(key_name=day_recall_key_name, data=day_recall_result, expire_time=7 * 24 * 3600)
			
 
				+
			
 
				+
			
 
				+def rank_by_day(project, table, now_date, rule_params, region_code_list):
			
 
				+    # 获取特征数据
			
 
				+    feature_df = get_feature_data(project=project, table=table, now_date=now_date - datetime.timedelta(days=1))
			
 
				+    # rank
			
 
				+    for key, value in rule_params.items():
			
 
				+        log_.info(f"rule = {key}, param = {value}")
			
 
				+        for region in region_code_list:
			
 
				+            log_.info(f"region = {region}")
			
 
				+            # 计算score
			
 
				+            region_df = feature_df[feature_df['code'] == region]
			
 
				+            log_.info(f'region_df count = {len(region_df)}')
			
 
				+            score_df = cal_score(df=region_df)
			
 
				+            video_rank(df=score_df, now_date=now_date, rule_key=key, param=value, region=region)
			
 
				+            # to-csv
			
 
				+            score_filename = f"score_{region}_{key}_{datetime.datetime.strftime(now_date, '%Y%m%d')}.csv"
			
 
				+            score_df.to_csv(f'./data/{score_filename}')
			
 
				+            # to-logs
			
 
				+            log_.info({"date": datetime.datetime.strftime(now_date, '%Y%m%d'),
			
 
				+                       "region_code": region,
			
 
				+                       "redis_key_prefix": config_.RECALL_KEY_NAME_PREFIX_REGION_BY_DAY,
			
 
				+                       "rule_key": key,
			
 
				+                       "score_df": score_df[['videoid', 'score']]})
			
 
				+
			
 
				+
			
 
				+def h_timer_check():
			
 
				+    rule_params = config_.RULE_PARAMS_REGION_DAY
			
 
				+    project = config_.PROJECT_REGION_DAY
			
 
				+    table = config_.TABLE_REGION_DAY
			
 
				+    region_code_list = [code for region, code in region_code.items()]
			
 
				+    now_date = datetime.datetime.today()
			
 
				+    log_.info(f"now_date: {datetime.datetime.strftime(now_date, '%Y%m%d')}")
			
 
				+    # 查看当天更新的数据是否已准备好
			
 
				+    h_data_count = data_check(project=project, table=table, now_date=now_date)
			
 
				+    if h_data_count > 0:
			
 
				+        log_.info(f'day_data_count = {h_data_count}')
			
 
				+        # 数据准备好，进行更新
			
 
				+        rank_by_day(now_date=now_date, rule_params=rule_params,
			
 
				+                    project=project, table=table, region_code_list=region_code_list)
			
 
				+    else:
			
 
				+        # 数据没准备好，1分钟后重新检查
			
 
				+        Timer(60, h_timer_check).start()
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    h_timer_check()
			
--- a/region_rule_rank_day_task.sh
+++ b/region_rule_rank_day_task.sh
@@ -0,0 +1,7 @@
 
				+source /etc/profile
			
 
				+echo $ROV_OFFLINE_ENV
			
 
				+if [[ $ROV_OFFLINE_ENV == 'test' ]]; then
			
 
				+    cd /data2/rov-offline && /root/anaconda3/bin/python /data2/rov-offline/region_rule_rank_day.py
			
 
				+elif [[ $ROV_OFFLINE_ENV == 'pro' ]]; then
			
 
				+    cd /data/rov-offline && /root/anaconda3/bin/python /data/rov-offline/region_rule_rank_day.py
			
 
				+fi
			
--- a/region_rule_rank_h.py
+++ b/region_rule_rank_h.py
@@ -160,11 +160,11 @@ def video_rank(df, now_date, now_h, rule_key, param, region):
 
				     :param region: 所属地域
			
 
				     :return:
			
 
				     """
			
 
				-    # 获取rov模型结果
			
 
				     redis_helper = RedisHelper()
			
 
				-    key_name = get_rov_redis_key(now_date=now_date)
			
 
				-    initial_data = redis_helper.get_data_zset_with_index(key_name=key_name, start=0, end=-1, with_scores=True)
			
 
				-    log_.info(f'initial data count = {len(initial_data)}')
			
 
				+    # # 获取rov模型结果
			
 
				+    # key_name = get_rov_redis_key(now_date=now_date)
			
 
				+    # initial_data = redis_helper.get_data_zset_with_index(key_name=key_name, start=0, end=-1, with_scores=True)
			
 
				+    # log_.info(f'initial data count = {len(initial_data)}')
			
 
				 
			
 
				     # 获取符合进入召回源条件的视频，进入条件：小时级回流>=20 && score>=0.005
			
 
				     return_count = param.get('return_count', 1)
			
@@ -192,15 +192,76 @@ def video_rank(df, now_date, now_h, rule_key, param, region):
 
				         redis_helper.del_keys(key_name=f"{config_.REGION_H_VIDEO_FILER}{region}.{rule_key}")
			
 
				 
			
 
				     # 去重更新rov模型结果，并另存为redis中
			
 
				-    initial_data_dup = {}
			
 
				-    for video_id, score in initial_data:
			
 
				+    # initial_data_dup = {}
			
 
				+    # for video_id, score in initial_data:
			
 
				+    #     if int(video_id) not in h_video_ids:
			
 
				+    #         initial_data_dup[int(video_id)] = score
			
 
				+    # log_.info(f"initial data dup count = {len(initial_data_dup)}")
			
 
				+    # initial_key_name = \
			
 
				+    #     f"{config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H}{region}.{rule_key}.{datetime.datetime.strftime(now_date, '%Y%m%d')}.{now_h}"
			
 
				+    # if len(initial_data_dup) > 0:
			
 
				+    #     redis_helper.add_data_with_zset(key_name=initial_key_name, data=initial_data_dup, expire_time=23 * 3600)
			
 
				+
			
 
				+    # 与其他召回视频池去重，存入对应的redis
			
 
				+    dup_to_redis(h_video_ids=h_video_ids, now_date=now_date, now_h=now_h, rule_key=rule_key, region=region)
			
 
				+
			
 
				+
			
 
				+def dup_to_redis(h_video_ids, now_date, now_h, rule_key, region):
			
 
				+    """将地域分组小时级数据与其他召回视频池去重，存入对应的redis"""
			
 
				+    redis_helper = RedisHelper()
			
 
				+    # ##### 去重更新地域分组天级列表，并另存为redis中
			
 
				+    region_day_key_name = \
			
 
				+        f"{config_.RECALL_KEY_NAME_PREFIX_REGION_BY_DAY}{region}.rule1." \
			
 
				+        f"{datetime.datetime.strftime(now_date, '%Y%m%d')}"
			
 
				+    if redis_helper.key_exists(key_name=region_day_key_name):
			
 
				+        region_day_data = redis_helper.get_data_zset_with_index(
			
 
				+            key_name=region_day_key_name, start=0, end=-1, with_scores=True)
			
 
				+        log_.info(f'region day data count = {len(region_day_data)}')
			
 
				+        region_day_dup = {}
			
 
				+        for video_id, score in region_day_data:
			
 
				+            if int(video_id) not in h_video_ids:
			
 
				+                region_day_dup[int(video_id)] = score
			
 
				+                h_video_ids.append(int(video_id))
			
 
				+        log_.info(f"region day data dup count = {len(region_day_dup)}")
			
 
				+        region_day_dup_key_name = \
			
 
				+            f"{config_.RECALL_KEY_NAME_PREFIX_DUP1_REGION_DAY_H}{region}.{rule_key}." \
			
 
				+            f"{datetime.datetime.strftime(now_date, '%Y%m%d')}.{now_h}"
			
 
				+        if len(region_day_dup) > 0:
			
 
				+            redis_helper.add_data_with_zset(key_name=region_day_dup_key_name, data=region_day_dup, expire_time=23 * 3600)
			
 
				+
			
 
				+    # ##### 去重小程序天级更新结果，并另存为redis中
			
 
				+    day_key_name = f"{config_.RECALL_KEY_NAME_PREFIX_BY_DAY}rule2.{datetime.datetime.strftime(now_date, '%Y%m%d')}"
			
 
				+    if redis_helper.key_exists(key_name=day_key_name):
			
 
				+        day_data = redis_helper.get_data_zset_with_index(
			
 
				+            key_name=day_key_name, start=0, end=-1, with_scores=True)
			
 
				+        log_.info(f'day data count = {len(day_data)}')
			
 
				+        day_dup = {}
			
 
				+        for video_id, score in day_data:
			
 
				+            if int(video_id) not in h_video_ids:
			
 
				+                day_dup[int(video_id)] = score
			
 
				+                h_video_ids.append(int(video_id))
			
 
				+        log_.info(f"day data dup count = {len(day_dup)}")
			
 
				+        day_dup_key_name = \
			
 
				+            f"{config_.RECALL_KEY_NAME_PREFIX_DUP2_REGION_DAY_H}{region}.{rule_key}." \
			
 
				+            f"{datetime.datetime.strftime(now_date, '%Y%m%d')}.{now_h}"
			
 
				+        if len(day_dup) > 0:
			
 
				+            redis_helper.add_data_with_zset(key_name=day_dup_key_name, data=day_dup, expire_time=23 * 3600)
			
 
				+
			
 
				+    # ##### 去重小程序模型更新结果，并另存为redis中
			
 
				+    model_key_name = get_rov_redis_key(now_date=now_date)
			
 
				+    model_data = redis_helper.get_data_zset_with_index(key_name=model_key_name, start=0, end=-1, with_scores=True)
			
 
				+    log_.info(f'model data count = {len(model_data)}')
			
 
				+    model_data_dup = {}
			
 
				+    for video_id, score in model_data:
			
 
				         if int(video_id) not in h_video_ids:
			
 
				-            initial_data_dup[int(video_id)] = score
			
 
				-    log_.info(f"initial data dup count = {len(initial_data_dup)}")
			
 
				-    initial_key_name = \
			
 
				-        f"{config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H}{region}.{rule_key}.{datetime.datetime.strftime(now_date, '%Y%m%d')}.{now_h}"
			
 
				-    if len(initial_data_dup) > 0:
			
 
				-        redis_helper.add_data_with_zset(key_name=initial_key_name, data=initial_data_dup, expire_time=23 * 3600)
			
 
				+            model_data_dup[int(video_id)] = score
			
 
				+            h_video_ids.append(int(video_id))
			
 
				+    log_.info(f"model data dup count = {len(model_data_dup)}")
			
 
				+    model_data_dup_key_name = \
			
 
				+        f"{config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H}{region}.{rule_key}." \
			
 
				+        f"{datetime.datetime.strftime(now_date, '%Y%m%d')}.{now_h}"
			
 
				+    if len(model_data_dup) > 0:
			
 
				+        redis_helper.add_data_with_zset(key_name=model_data_dup_key_name, data=model_data_dup, expire_time=23 * 3600)
			
 
				 
			
 
				 
			
 
				 def rank_by_h(project, table, now_date, now_h, rule_params, region_code_list):
			
@@ -219,14 +280,14 @@ def rank_by_h(project, table, now_date, now_h, rule_params, region_code_list):
 
				             score_df = cal_score(df=region_df)
			
 
				             video_rank(df=score_df, now_date=now_date, now_h=now_h, rule_key=key, param=value, region=region)
			
 
				             # to-csv
			
 
				-            score_filename = f"score_{region}_{key}_{datetime.datetime.strftime(now_date, '%Y%m%d%H')}.csv"
			
 
				-            score_df.to_csv(f'./data/{score_filename}')
			
 
				+            # score_filename = f"score_{region}_{key}_{datetime.datetime.strftime(now_date, '%Y%m%d%H')}.csv"
			
 
				+            # score_df.to_csv(f'./data/{score_filename}')
			
 
				             # to-logs
			
 
				-            log_.info({"date": datetime.datetime.strftime(now_date, '%Y%m%d%H'),
			
 
				-                       "region_code": region,
			
 
				-                       "redis_key_prefix": config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H,
			
 
				-                       "rule_key": key,
			
 
				-                       "score_df": score_df[['videoid', 'score']]})
			
 
				+            # log_.info({"date": datetime.datetime.strftime(now_date, '%Y%m%d%H'),
			
 
				+            #            "region_code": region,
			
 
				+            #            "redis_key_prefix": config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H,
			
 
				+            #            "rule_key": key,
			
 
				+            #            "score_df": score_df[['videoid', 'score']]})
			
 
				 
			
 
				 
			
 
				 def h_rank_bottom(now_date, now_h, rule_key, region_code_list):
			
@@ -241,7 +302,12 @@ def h_rank_bottom(now_date, now_h, rule_key, region_code_list):
 
				         redis_dt = datetime.datetime.strftime(now_date, '%Y%m%d')
			
 
				         redis_h = now_h - 1
			
 
				 
			
 
				-    key_prefix_list = [config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H, config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H]
			
 
				+    key_prefix_list = [
			
 
				+        config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H,
			
 
				+        config_.RECALL_KEY_NAME_PREFIX_DUP1_REGION_DAY_H,
			
 
				+        config_.RECALL_KEY_NAME_PREFIX_DUP2_REGION_DAY_H,
			
 
				+        config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H
			
 
				+    ]
			
 
				     # fea_df = get_feature_data(project=project, table=table, now_date=now_date - datetime.timedelta(hours=1))
			
 
				     # region_list = list(set(fea_df[''].to_list()))
			
 
				     for region in region_code_list:
			
--- a/videos_filter.py
+++ b/videos_filter.py
@@ -554,8 +554,13 @@ def filter_region_videos():
 
				         log_.info(f"region = {region}")
			
 
				         for key, value in rule_params.items():
			
 
				             log_.info(f"rule = {key}, param = {value}")
			
 
				-            # 需过滤两个视频列表
			
 
				-            key_prefix_list = [config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H, config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H]
			
 
				+            # 需过滤视频列表
			
 
				+            key_prefix_list = [
			
 
				+                config_.RECALL_KEY_NAME_PREFIX_REGION_BY_H,
			
 
				+                config_.RECALL_KEY_NAME_PREFIX_DUP1_REGION_DAY_H,
			
 
				+                config_.RECALL_KEY_NAME_PREFIX_DUP2_REGION_DAY_H,
			
 
				+                config_.RECALL_KEY_NAME_PREFIX_DUP_REGION_H
			
 
				+            ]
			
 
				             for i, key_prefix in enumerate(key_prefix_list):
			
 
				                 # 拼接key
			
 
				                 key_name = f"{key_prefix}{region}.{key}.{now_date}.{now_h}"
			
@@ -586,6 +591,49 @@ def filter_region_videos():
 
				     log_.info("region_h videos filter end!")
			
 
				 
			
 
				 
			
 
				+def filter_region_videos_by_day():
			
 
				+    """过滤地域分组天级规则视频"""
			
 
				+    region_code_list = [code for region, code in region_code.items()]
			
 
				+    rule_params = config_.RULE_PARAMS_REGION_DAY
			
 
				+    log_.info("region_day videos filter start ...")
			
 
				+    redis_helper = RedisHelper()
			
 
				+    # 获取当前日期
			
 
				+    now_date = date.today().strftime('%Y%m%d')
			
 
				+    log_.info(f'now_date = {now_date}.')
			
 
				+    for region in region_code_list:
			
 
				+        log_.info(f"region = {region}")
			
 
				+        for key, value in rule_params.items():
			
 
				+            log_.info(f"rule = {key}, param = {value}")
			
 
				+            # 需过滤视频列表
			
 
				+            key_prefix_list = [
			
 
				+                config_.RECALL_KEY_NAME_PREFIX_REGION_BY_DAY
			
 
				+            ]
			
 
				+            for i, key_prefix in enumerate(key_prefix_list):
			
 
				+                # 拼接key
			
 
				+                key_name = f"{key_prefix}{region}.{key}.{now_date}"
			
 
				+                log_.info(f"key_name: {key_name}")
			
 
				+                # 获取视频
			
 
				+                data = redis_helper.get_data_zset_with_index(key_name=key_name, start=0, end=-1)
			
 
				+                if data is None:
			
 
				+                    log_.info("data is None")
			
 
				+                    log_.info("filter end!")
			
 
				+                    continue
			
 
				+                # 过滤
			
 
				+                video_ids = [int(video_id) for video_id in data]
			
 
				+                filtered_result = filter_video_status(video_ids=video_ids)
			
 
				+                # 求差集，获取需要过滤掉的视频，并从redis中移除
			
 
				+                filter_videos = set(video_ids) - set(filtered_result)
			
 
				+                log_.info("video_ids size = {}, filtered size = {}, filter sizer = {}".format(len(video_ids),
			
 
				+                                                                                              len(filtered_result),
			
 
				+                                                                                              len(filter_videos)))
			
 
				+                if len(filter_videos) == 0:
			
 
				+                    log_.info("filter end!")
			
 
				+                    continue
			
 
				+                redis_helper.remove_value_from_zset(key_name=key_name, value=list(filter_videos))
			
 
				+        log_.info(f"region = {region} videos filter end!")
			
 
				+    log_.info("region_day videos filter end!")
			
 
				+
			
 
				+
			
 
				 def main():
			
 
				     try:
			
 
				         # ROV召回池视频过滤
			
@@ -606,9 +654,9 @@ def main():
 
				         filter_rov_updated()
			
 
				         filter_rov_updated_app()
			
 
				         # 运营强插相关推荐视频过滤
			
 
				-        filter_relevant_videos()
			
 
				+        # filter_relevant_videos()
			
 
				         # 按位置排序视频过滤
			
 
				-        filter_position_videos()
			
 
				+        # filter_position_videos()
			
 
				         # 过滤票圈视频APP小时级数据
			
 
				         filter_app_pool()
			
 
				         # 过滤小程序小时级数据
			
@@ -616,9 +664,11 @@ def main():
 
				         # 过滤小程序天级数据
			
 
				         filter_rov_day()
			
 
				         # 过滤老视频数据
			
 
				-        filter_old_videos()
			
 
				+        # filter_old_videos()
			
 
				         # 过滤地域分组小时级视频
			
 
				         filter_region_videos()
			
 
				+        # 过滤地域分组天级视频
			
 
				+        filter_region_videos_by_day()
			
 
				     except Exception as e:
			
 
				         log_.error(traceback.format_exc())
			
 
				         send_msg_to_feishu(