8 months ago · c70fc5f40d
--- a/account_cold_start_daily.py
+++ b/account_cold_start_daily.py
@@ -4,11 +4,14 @@
 
				 import datetime
			
 
				 import traceback
			
 
				 
			
 
				+from argparse import ArgumentParser
			
 
				+
			
 
				 from applications import longArticlesMySQL, bot
			
 
				 from coldStartTasks.crawler.weixinCategoryCrawler import weixinCategory
			
 
				 from coldStartTasks.publish.publishCategoryArticles import CategoryColdStartTask
			
 
				+from coldStartTasks.filter.title_similarity_task import ColdStartTitleSimilarityTask
			
 
				 
			
 
				-DEFAULT_CATEGORY_LIST = ['1030-手动挑号']
			
 
				+DEFAULT_CATEGORY_LIST = ['1030-手动挑号', 'account_association']
			
 
				 
			
 
				 
			
 
				 class AccountColdStartDailyTask(object):
			
@@ -39,14 +42,20 @@ class AccountColdStartDailyTask(object):
 
				             )
			
 
				             return False
			
 
				 
			
 
				-    def crawler_task(self, category_list):
			
 
				+    def crawler_task(self, category_list, date_str):
			
 
				         """
			
 
				         :return:
			
 
				         """
			
 
				         # 初始化category抓取类
			
 
				         try:
			
 
				             weixin_category_crawler = weixinCategory(db_client=self.db_client)
			
 
				-            weixin_category_crawler.deal(category_list=category_list)
			
 
				+            weixin_category_crawler.deal(category_list=category_list, date_str=date_str)
			
 
				+
			
 
				+            # 抓取完成之后，给抓取到的标题进行相似度打分
			
 
				+            cold_start_title_similarity_task = ColdStartTitleSimilarityTask()
			
 
				+            cold_start_title_similarity_task.init_database()
			
 
				+            cold_start_title_similarity_task.run()
			
 
				+
			
 
				             bot(
			
 
				                 title="账号冷启动任务，抓取完成",
			
 
				                 detail={
			
@@ -95,10 +104,9 @@ class AccountColdStartDailyTask(object):
 
				             )
			
 
				 
			
 
				 
			
 
				-def main(category_list=None, article_source=None):
			
 
				+def main(date_str, category_list=None, article_source=None):
			
 
				     """
			
 
				     main job, use crontab to do job daily
			
 
				-    todo: 1. 开放一个输入可以输入指定品类  2. 增加对指定账号的抓取&&发布
			
 
				     :return:
			
 
				     """
			
 
				     if not category_list:
			
@@ -108,17 +116,29 @@ def main(category_list=None, article_source=None):
 
				     task = AccountColdStartDailyTask()
			
 
				     if task.init_db():
			
 
				         if article_source == 'weixin':
			
 
				-            task.crawler_task(category_list=category_list)
			
 
				+            task.crawler_task(category_list=category_list, date_str=date_str)
			
 
				 
			
 
				         task.publish_task(category_list=category_list, article_source=article_source)
			
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				+    parser = ArgumentParser()
			
 
				+    parser.add_argument("--run_date", help="--run_date format: %Y-%m-%d")
			
 
				+    args = parser.parse_args()
			
 
				+
			
 
				+    if args.run_date:
			
 
				+        run_date = args.run_date
			
 
				+    else:
			
 
				+        run_date = datetime.date.today().isoformat()
			
 
				+
			
 
				     # 执行微信抓取发布
			
 
				-    main()
			
 
				+    main(date_str=run_date)
			
 
				 
			
 
				     # 执行头条发布
			
 
				     main(
			
 
				+        date_str=run_date,
			
 
				         category_list=['history', 'tech', 'finance', 'entertainment'],
			
 
				         article_source='toutiao'
			
 
				     )
			
 
				+
			
 
				+
			
--- a/applications/api/__init__.py
+++ b/applications/api/__init__.py
@@ -1,4 +1,5 @@
 
				 """
			
 
				 @author: luojunhui
			
 
				 """
			
 
				-from .moon_shot_api import generate_mini_program_title
			
 
				+from .moon_shot_api import generate_mini_program_title
			
 
				+from .nlp_api import similarity_between_title_list
			
--- a/applications/api/nlp_api.py
+++ b/applications/api/nlp_api.py
@@ -0,0 +1,26 @@
 
				+"""
			
 
				+@author: luojunhui
			
 
				+"""
			
 
				+import requests
			
 
				+
			
 
				+
			
 
				+def similarity_between_title_list(target_title_list: list[str], base_title_list: list[str]) -> list[list[float]]:
			
 
				+    """
			
 
				+    cal the similarity between two list of title
			
 
				+    :param target_title_list: target title_list
			
 
				+    :param base_title_list: base title_list
			
 
				+    :return: list of similarity
			
 
				+    """
			
 
				+    url = 'http://61.48.133.26:6060/nlp'
			
 
				+    body = {
			
 
				+        "data": {
			
 
				+            "text_list_a": target_title_list,
			
 
				+            "text_list_b": base_title_list
			
 
				+        },
			
 
				+        "function": "similarities_cross",
			
 
				+        "use_cache": False
			
 
				+    }
			
 
				+    response_json = requests.post(url, json=body, timeout=120).json()
			
 
				+    score_array = response_json['score_list_list']
			
 
				+    return score_array
			
 
				+
			
--- a/coldStartTasks/crawler/weixinCategoryCrawler.py
+++ b/coldStartTasks/crawler/weixinCategoryCrawler.py
@@ -2,19 +2,46 @@
 
				 @author: luojunhui
			
 
				 抓取全局品类文章
			
 
				 """
			
 
				-
			
 
				+import json
			
 
				 import time
			
 
				 
			
 
				 from tqdm import tqdm
			
 
				+from pymysql.cursors import DictCursor
			
 
				+
			
 
				 from applications import WeixinSpider, Functions, llm_sensitivity, log
			
 
				 from coldStartTasks.filter import article_crawler_duplicate_filter
			
 
				+from config import apolloConfig
			
 
				 
			
 
				 # 常量
			
 
				 ACCOUNT_GOOD_STATUS = 1
			
 
				+
			
 
				+# 账号是否每日抓取
			
 
				+ACCOUNT_DAILY_SCRAPE = 1
			
 
				+ACCOUNT_NOT_DAILY_SCRAPE = 0
			
 
				+
			
 
				+# 默认值
			
 
				 DEFAULT_VIEW_COUNT = 0
			
 
				 DEFAULT_LIKE_COUNT = 0
			
 
				 DEFAULT_ARTICLE_STATUS = 1
			
 
				-DEFAULT_TIMESTAMP = 1704038400
			
 
				+DEFAULT_TIMESTAMP = 1717171200
			
 
				+
			
 
				+# 标题sensitivity
			
 
				+TITLE_SENSITIVE = 1
			
 
				+TITLE_NOT_SENSITIVE = 0
			
 
				+
			
 
				+config = apolloConfig()
			
 
				+sensitive_word_list = json.loads(config.getConfigValue("sensitive_word_list"))
			
 
				+
			
 
				+
			
 
				+def whether_title_sensitive(title: str) -> bool:
			
 
				+    """
			
 
				+    : param title:
			
 
				+    判断视频是否的标题是否包含敏感词
			
 
				+    """
			
 
				+    for word in sensitive_word_list:
			
 
				+        if word in title:
			
 
				+            return True
			
 
				+    return False
			
 
				 
			
 
				 
			
 
				 class weixinCategory(object):
			
@@ -36,7 +63,7 @@ class weixinCategory(object):
 
				         sql = f"""
			
 
				             select gh_id, account_source, account_name, account_category, latest_update_time
			
 
				             from long_articles_accounts 
			
 
				-            where account_category = '{account_category}' and is_using = {ACCOUNT_GOOD_STATUS};
			
 
				+            where account_category = '{account_category}' and is_using = {ACCOUNT_GOOD_STATUS} and daily_scrape = {ACCOUNT_DAILY_SCRAPE};
			
 
				             """
			
 
				         account_tuple = self.db_client_lam.select(sql)
			
 
				         result = [
			
@@ -51,10 +78,25 @@ class weixinCategory(object):
 
				         ]
			
 
				         return result
			
 
				 
			
 
				+    def get_association_account_list(self, date_str):
			
 
				+        """
			
 
				+        获取账号联想的轮询账号
			
 
				+        """
			
 
				+        group_id = date_str[-1]
			
 
				+        sql = f"""
			
 
				+            select account_id, gh_id, account_name, latest_update_time
			
 
				+            from long_articles_accounts
			
 
				+            where account_category = 'account_association' and is_using = {ACCOUNT_DAILY_SCRAPE} and daily_scrape = {ACCOUNT_NOT_DAILY_SCRAPE};
			
 
				+        """
			
 
				+        account_list = self.db_client_lam.select(sql, cursor_type=DictCursor)
			
 
				+        today_crawler_account_list = [i for i in account_list if str(i['account_id'])[-1] == group_id]
			
 
				+        return today_crawler_account_list
			
 
				+
			
 
				     def insert_data_into_db(self, gh_id, category, article_list):
			
 
				         """
			
 
				         将数据更新到数据库
			
 
				         :return:
			
 
				+
			
 
				         """
			
 
				         success_records = []
			
 
				         for article_obj in article_list:
			
@@ -63,7 +105,7 @@ class weixinCategory(object):
 
				                 try:
			
 
				                     # 判断文章是否存在相同的标题
			
 
				                     if article_crawler_duplicate_filter(
			
 
				-                        new_article_title=obj["Title"], db_client=self.db_client_lam
			
 
				+                            new_article_title=obj["Title"], db_client=self.db_client_lam
			
 
				                     ):
			
 
				                         log(
			
 
				                             function="weixinCategory",
			
@@ -72,6 +114,9 @@ class weixinCategory(object):
 
				                             data={"title": obj["Title"]}
			
 
				                         )
			
 
				                         continue
			
 
				+
			
 
				+                    # 判断标题是否包含敏感词
			
 
				+                    title_sensitivity = TITLE_SENSITIVE if whether_title_sensitive(obj["Title"]) else TITLE_NOT_SENSITIVE
			
 
				                     show_stat = self.function.show_desc_to_sta(obj["ShowDesc"])
			
 
				                     show_view_count = show_stat.get("show_view_count", DEFAULT_VIEW_COUNT)
			
 
				                     show_like_count = show_stat.get("show_like_count", DEFAULT_LIKE_COUNT)
			
@@ -80,10 +125,10 @@ class weixinCategory(object):
 
				                         insert into crawler_meta_article
			
 
				                         (
			
 
				                          platform, mode, category, out_account_id, article_index, title, link, read_cnt, like_cnt,
			
 
				-                         description, publish_time, crawler_time, status, unique_index, llm_sensitivity
			
 
				+                         description, publish_time, crawler_time, status, unique_index, llm_sensitivity, title_sensitivity
			
 
				                         )
			
 
				                         VALUES 
			
 
				-                        (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s);
			
 
				+                        (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s);
			
 
				                     """
			
 
				                     self.db_client_lam.update(
			
 
				                         sql=insert_sql,
			
@@ -102,7 +147,8 @@ class weixinCategory(object):
 
				                             int(time.time()),
			
 
				                             DEFAULT_ARTICLE_STATUS,
			
 
				                             unique_idx,
			
 
				-                            obj.get("llm_sensitivity", -1)
			
 
				+                            obj.get("llm_sensitivity", -1),
			
 
				+                            title_sensitivity
			
 
				                         ),
			
 
				                     )
			
 
				                     success_records.append({
			
@@ -175,48 +221,59 @@ class weixinCategory(object):
 
				             print("No more data")
			
 
				             return []
			
 
				 
			
 
				-    def deal(self, category_list):
			
 
				+    def crawler_each_category(self, account_list, category):
			
 
				         """
			
 
				+        抓取每个品类
			
 
				+        :return:
			
 
				+        """
			
 
				+        success_records = []
			
 
				+        for account in tqdm(account_list, desc="crawler_each_category"):
			
 
				+            try:
			
 
				+                gh_id = account['gh_id']
			
 
				+                try:
			
 
				+                    timestamp = int(account['latest_timestamp'].timestamp())
			
 
				+                except Exception as e:
			
 
				+                    timestamp = DEFAULT_TIMESTAMP
			
 
				+                success_records += self.update_each_account(
			
 
				+                    gh_id=gh_id,
			
 
				+                    category=category,
			
 
				+                    latest_time_stamp=timestamp
			
 
				+                )
			
 
				+                print("success")
			
 
				+            except Exception as e:
			
 
				+                print("fail because of {}".format(e))
			
 
				+        success_titles = [x['title'] for x in success_records]
			
 
				+        if success_titles:
			
 
				+            try:
			
 
				+                sensitive_results = llm_sensitivity.check_titles(success_titles)
			
 
				+                for record, sensitive_result in zip(success_records, sensitive_results):
			
 
				+                    self.update_article_sensitive_status(
			
 
				+                        category=category,
			
 
				+                        unique_index=record['unique_index'],
			
 
				+                        status=sensitive_result['hit_rule']
			
 
				+                    )
			
 
				+            except Exception as e:
			
 
				+                print("failed to update sensitive status: {}".format(e))
			
 
				 
			
 
				+    def deal(self, category_list, date_str):
			
 
				+        """
			
 
				         :param category_list:
			
 
				+        :param date_str: YYYY-MM-DD
			
 
				         :return:
			
 
				         """
			
 
				+        # daily 品类账号抓取
			
 
				         for category in category_list:
			
 
				-            success_records = []
			
 
				             account_list = self.get_account_list(category)
			
 
				-            for account in tqdm(account_list):
			
 
				-                try:
			
 
				-                    gh_id = account['gh_id']
			
 
				-                    category = account['category']
			
 
				-                    try:
			
 
				-                        timestamp = int(account['latest_timestamp'].timestamp())
			
 
				-                    except Exception as e:
			
 
				-                        timestamp = DEFAULT_TIMESTAMP
			
 
				-                    success_records += self.update_each_account(
			
 
				-                        gh_id=gh_id,
			
 
				-                        category=category,
			
 
				-                        latest_time_stamp=timestamp
			
 
				-                    )
			
 
				-                    print("success")
			
 
				-                except Exception as e:
			
 
				-                    print("fail because of {}".format(e))
			
 
				-            success_titles = [x['title'] for x in success_records]
			
 
				-            if success_titles:
			
 
				-                try:
			
 
				-                    sensitive_results = llm_sensitivity.check_titles(success_titles)
			
 
				-                    for record, sensitive_result in zip(success_records, sensitive_results):
			
 
				-                        self.update_article_sensitive_status(
			
 
				-                            category=category,
			
 
				-                            unique_index=record['unique_index'],
			
 
				-                            status=sensitive_result['hit_rule']
			
 
				-                        )
			
 
				-                except Exception as e:
			
 
				-                    print("failed to update sensitive status: {}".format(e))
			
 
				+            self.crawler_each_category(account_list=account_list, category=category)
			
 
				+
			
 
				+        # 账号联想账号轮询抓取
			
 
				+        association_account_list = self.get_association_account_list(date_str)
			
 
				+        self.crawler_each_category(account_list=association_account_list, category="association")
			
 
				 
			
 
				     def deal_accounts(self, account_list):
			
 
				         """
			
 
				         input account list
			
 
				-        :param account_list:
			
 
				+        :param account_list: 具体账号抓取，只抓一页
			
 
				         :return:
			
 
				         """
			
 
				         account_tuple = tuple(account_list)
			
@@ -233,6 +290,7 @@ class weixinCategory(object):
 
				                 try:
			
 
				                     latest_timestamp = account[3].timestamp()
			
 
				                 except Exception as e:
			
 
				+                    print(e)
			
 
				                     latest_timestamp = DEFAULT_TIMESTAMP
			
 
				                 self.update_each_account(
			
 
				                     gh_id=gh_id,
			
@@ -241,5 +299,3 @@ class weixinCategory(object):
 
				                 )
			
 
				             except Exception as e:
			
 
				                 print(e)
			
 
				-
			
 
				-
			
--- a/coldStartTasks/filter/__init__.py
+++ b/coldStartTasks/filter/__init__.py
@@ -12,7 +12,13 @@ def article_crawler_duplicate_filter(new_article_title, db_client) -> bool:
 
				     select_sql = f"""
			
 
				         select article_id from crawler_meta_article where title = '{new_article_title}';
			
 
				     """
			
 
				-    response = db_client.select(select_sql)
			
 
				+    if hasattr(db_client, "fetch"):
			
 
				+        response = db_client.fetch(select_sql)
			
 
				+    elif hasattr(db_client, "select"):
			
 
				+        response = db_client.select(select_sql)
			
 
				+    else:
			
 
				+        raise AttributeError("db_client must has fetch or select method")
			
 
				+
			
 
				     if response:
			
 
				         return True
			
 
				     else:
			
@@ -28,7 +34,13 @@ def video_crawler_duplicate_filter(new_video_title, db_client) -> bool:
 
				     select_sql = f"""
			
 
				         select article_title from publish_single_video_source where article_title = '{new_video_title}';
			
 
				     """
			
 
				-    response = db_client.select(select_sql)
			
 
				+    if hasattr(db_client, "fetch"):
			
 
				+        response = db_client.fetch(select_sql)
			
 
				+    elif hasattr(db_client, "select"):
			
 
				+        response = db_client.select(select_sql)
			
 
				+    else:
			
 
				+        raise AttributeError("db_client must has fetch or select method")
			
 
				+
			
 
				     if response:
			
 
				         return True
			
 
				     else:
			
--- a/coldStartTasks/filter/title_similarity_task.py
+++ b/coldStartTasks/filter/title_similarity_task.py
@@ -0,0 +1,115 @@
 
				+"""
			
 
				+@author: luojunhui
			
 
				+"""
			
 
				+import numpy as np
			
 
				+
			
 
				+from pymysql.cursors import DictCursor
			
 
				+
			
 
				+from applications.api import similarity_between_title_list
			
 
				+from applications.db import DatabaseConnector
			
 
				+from config import long_articles_config
			
 
				+
			
 
				+
			
 
				+TIMESTAMP_MS_THRESHOLD = 1732982400000
			
 
				+ARTICLE_BATCH = 1000
			
 
				+PERCENT_THRESHOLD = 95
			
 
				+
			
 
				+
			
 
				+def chunks(total_list, batch_size):
			
 
				+    """
			
 
				+    yield batch tasks
			
 
				+    """
			
 
				+    for i in range(0, len(total_list), batch_size):
			
 
				+        yield total_list[i:i + batch_size]
			
 
				+
			
 
				+
			
 
				+class ColdStartTitleSimilarityTask(object):
			
 
				+    """
			
 
				+    冷启动文章标题相似度任务
			
 
				+    """
			
 
				+
			
 
				+    def __init__(self):
			
 
				+        self.db_client = None
			
 
				+
			
 
				+    def init_database(self):
			
 
				+        """
			
 
				+        init database
			
 
				+        """
			
 
				+        self.db_client = DatabaseConnector(long_articles_config)
			
 
				+        self.db_client.connect()
			
 
				+
			
 
				+    def get_level_up_title_list(self):
			
 
				+        """
			
 
				+        获取晋级文章标题列表
			
 
				+        status: 1 表示文章已经溯源完成
			
 
				+        deleted: 0 表示文章正常
			
 
				+        level = 'autoArticlePoolLevel1' 表示头条
			
 
				+        """
			
 
				+        sql = f"""
			
 
				+        select distinct title from article_pool_promotion_source where level = 'autoArticlePoolLevel1' and status = 1 and deleted = 0;
			
 
				+        """
			
 
				+        mysql_response = self.db_client.fetch(query=sql)
			
 
				+        title_list = [i[0] for i in mysql_response]
			
 
				+        return title_list
			
 
				+
			
 
				+    def get_title_from_meta_base(self):
			
 
				+        """
			
 
				+        获取meta_base表中文章标题列表
			
 
				+        status: 1 表示文章初始化状态
			
 
				+        """
			
 
				+        sql = f"""
			
 
				+            select article_id, title from crawler_meta_article where status = 1 and score is null;
			
 
				+        """
			
 
				+        mysql_response = self.db_client.fetch(query=sql, cursor_type=DictCursor)
			
 
				+        return mysql_response
			
 
				+
			
 
				+    def update_meta_article_batch(self, update_data_list: list[tuple]) -> int:
			
 
				+        """
			
 
				+        批量更新crawler_meta_article
			
 
				+        """
			
 
				+        sql = """
			
 
				+            update crawler_meta_article
			
 
				+            set score = case article_id
			
 
				+                {}
			
 
				+            end
			
 
				+            where article_id in %s;
			
 
				+        """
			
 
				+        case_statement = []
			
 
				+        article_id_list = []
			
 
				+        params = []
			
 
				+        for score, article_id in update_data_list:
			
 
				+            case_statement.append(f"when %s then %s")
			
 
				+            article_id_list.append(article_id)
			
 
				+            params.extend([article_id, score])
			
 
				+
			
 
				+        params.append(tuple(article_id_list))
			
 
				+        case_statements = "\n".join(case_statement)
			
 
				+        formatted_sql = sql.format(case_statements)
			
 
				+        affected_rows = self.db_client.save(formatted_sql, params)
			
 
				+        return affected_rows
			
 
				+
			
 
				+    def run(self):
			
 
				+        """
			
 
				+        执行任务
			
 
				+        """
			
 
				+        target_article_list = self.get_title_from_meta_base()
			
 
				+        if not target_article_list:
			
 
				+            print("No more articles to process.")
			
 
				+            return
			
 
				+
			
 
				+        base_title_list = self.get_level_up_title_list()
			
 
				+
			
 
				+        batch_task_list = chunks(target_article_list, ARTICLE_BATCH)
			
 
				+
			
 
				+        for batch_task in batch_task_list:
			
 
				+            batch_target_title_list = [i['title'] for i in batch_task]
			
 
				+            similarity_array = similarity_between_title_list(batch_target_title_list, base_title_list)
			
 
				+
			
 
				+            update_data_list = []
			
 
				+            for index, score_list in enumerate(similarity_array):
			
 
				+                sorted_score_list = sorted(score_list)
			
 
				+                percent_threshold_score = np.percentile(sorted_score_list, PERCENT_THRESHOLD)
			
 
				+                update_data_list.append((percent_threshold_score, batch_target_title_list[index]['article_id']))
			
 
				+
			
 
				+            affected_rows = self.update_meta_article_batch(update_data_list)
			
 
				+            print(affected_rows)
			
--- a/coldStartTasks/publish/publishCategoryArticles.py
+++ b/coldStartTasks/publish/publishCategoryArticles.py
@@ -13,6 +13,9 @@ from applications import aiditApi, log, bot
 
				 from config import apolloConfig
			
 
				 
			
 
				 apollo = apolloConfig()
			
 
				+DAILY_CRAWLER_MAX_NUM = 1000
			
 
				+SIMILARITY_MIN_SCORE = 0.4
			
 
				+TITLE_NOT_SENSITIVE = 0
			
 
				 
			
 
				 
			
 
				 class CategoryColdStartTask(object):
			
@@ -79,14 +82,16 @@ class CategoryColdStartTask(object):
 
				         """
			
 
				         从长文 meta 库中获取冷启文章
			
 
				         :return:
			
 
				+
			
 
				         """
			
 
				         sql = f"""
			
 
				         SELECT 
			
 
				-            article_id, out_account_id, article_index, title, link, read_cnt, status, llm_sensitivity
			
 
				+            article_id, out_account_id, article_index, title, link, read_cnt, status, llm_sensitivity, score
			
 
				         FROM
			
 
				             crawler_meta_article
			
 
				         WHERE 
			
 
				-            category = "{category}" and platform = "{article_source}";
			
 
				+            category = "{category}" and platform = "{article_source}" and title_sensitivity = {TITLE_NOT_SENSITIVE}
			
 
				+        ORDER BY score DESC;
			
 
				         """
			
 
				         article_list = self.db_client.select(sql)
			
 
				         log(
			
@@ -99,13 +104,13 @@ class CategoryColdStartTask(object):
 
				             }
			
 
				         )
			
 
				         article_df = DataFrame(article_list,
			
 
				-                               columns=['article_id', 'gh_id', 'position', 'title', 'link', 'read_cnt', 'status', 'llm_sensitivity'])
			
 
				+                               columns=['article_id', 'gh_id', 'position', 'title', 'link', 'read_cnt', 'status',
			
 
				+                                        'llm_sensitivity', 'score'])
			
 
				         return article_df
			
 
				 
			
 
				-    def change_article_status(self, category):
			
 
				+    def filter_each_category(self, category):
			
 
				         """
			
 
				-        已经发布到生成计划中的 id，
			
 
				-        :return:
			
 
				+        过滤单个生成计划类别的文章
			
 
				         """
			
 
				         plan_id = self.category_map.get(category)
			
 
				         if plan_id:
			
@@ -130,6 +135,27 @@ class CategoryColdStartTask(object):
 
				             print("未获取到计划id")
			
 
				             return
			
 
				 
			
 
				+    def published_articles_title_filter(self):
			
 
				+        """
			
 
				+        已经发布到生成计划中的 id，
			
 
				+        :return:
			
 
				+        """
			
 
				+        category_list = list(self.category_map.keys())
			
 
				+        for category in category_list:
			
 
				+            try:
			
 
				+                self.filter_each_category(category)
			
 
				+            except Exception as e:
			
 
				+                log(
			
 
				+                    task="category_publish_task",
			
 
				+                    function="published_articles_title_filter",
			
 
				+                    message="过滤已发布文章失败",
			
 
				+                    data={
			
 
				+                        "error": str(e),
			
 
				+                        "error_msg": traceback.format_exc(),
			
 
				+                        "category": category
			
 
				+                    }
			
 
				+                )
			
 
				+
			
 
				     def change_article_status_while_publishing(self, article_id_list):
			
 
				         """
			
 
				 
			
@@ -206,6 +232,11 @@ class CategoryColdStartTask(object):
 
				             ~(filter_df['llm_sensitivity'] > 0)
			
 
				         ]
			
 
				         length_level5 = filter_df.shape[0]
			
 
				+
			
 
				+        # 第六层通过相关性分数过滤
			
 
				+        filter_df = filter_df[filter_df['score'] > SIMILARITY_MIN_SCORE]
			
 
				+        length_level6 = filter_df.shape[0]
			
 
				+
			
 
				         log(
			
 
				             task="category_publish_task",
			
 
				             function="publish_filter_articles",
			
@@ -232,6 +263,9 @@ class CategoryColdStartTask(object):
 
				                 "通过LLM敏感度过滤": "过滤数量: {}    剩余数量: {}".format(
			
 
				                     length_level4 - length_level5, length_level5
			
 
				                 ),
			
 
				+                "通过相关性分数过滤": "过滤数量: {}    剩余数量: {}".format(
			
 
				+                    length_level5 - length_level6, length_level6
			
 
				+                ),
			
 
				                 "品类": category,
			
 
				                 "阅读均值倍数阈值": self.READ_TIMES_THRESHOLD,
			
 
				                 "阅读量阈值": self.READ_THRESHOLD,
			
@@ -239,7 +273,7 @@ class CategoryColdStartTask(object):
 
				             },
			
 
				             mention=False
			
 
				         )
			
 
				-        return filter_df
			
 
				+        return filter_df[:DAILY_CRAWLER_MAX_NUM]
			
 
				 
			
 
				     def filter_toutiao_articles(self, articles_df, category):
			
 
				         """
			
@@ -347,6 +381,9 @@ class CategoryColdStartTask(object):
 
				         )
			
 
				         for category in category_list:
			
 
				             try:
			
 
				+                # 已发布标题去重
			
 
				+                self.published_articles_title_filter()
			
 
				+
			
 
				                 category_df = self.get_articles_from_meta_table(category=category, article_source=article_source)
			
 
				                 self.publish_filter_articles(
			
 
				                     category=category,
			
@@ -363,4 +400,3 @@ class CategoryColdStartTask(object):
 
				                         "traceback": traceback.format_exc()
			
 
				                     }
			
 
				                 )
			
 
				-
			
--- a/title_similarity_score_task.py
+++ b/title_similarity_score_task.py
@@ -0,0 +1,10 @@
 
				+"""
			
 
				+@author: luojunhui
			
 
				+"""
			
 
				+from coldStartTasks.filter.title_similarity_task import ColdStartTitleSimilarityTask
			
 
				+
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    task = ColdStartTitleSimilarityTask()
			
 
				+    task.init_database()
			
 
				+    task.run()