소스 검색

上线账号抓取v2

luojunhui 10 달 전
부모
커밋
bb036de401
1개의 변경된 파일3개의 추가작업 그리고 2개의 파일을 삭제
  1. 3 2
      coldStartTasks/crawler/weixin_account_crawler.py

+ 3 - 2
coldStartTasks/crawler/weixin_account_crawler.py

@@ -213,6 +213,9 @@ class WeixinAccountCrawler(object):
         for crawler_article_obj in tqdm(crawler_article_list, desc="crawler article list"):
             try:
                 article_id = crawler_article_obj['id']
+                # 记录处理过的id
+                article_id_list.append(int(article_id))
+
                 article_url = crawler_article_obj['article_url']
                 # 判断文章是否原创
                 if self.is_original(article_url):
@@ -231,8 +234,6 @@ class WeixinAccountCrawler(object):
                 else:
                     continue
 
-                # 记录处理过的id
-                article_id_list.append(int(article_id))
             except Exception as e:
                 print(e)
                 print(traceback.format_exc())