wangkun 2 éve
szülő
commit
2cb16e3ec6
2 módosított fájl, 34 hozzáadás és 51 törlés
  1. 28 49
      README.md
  2. 6 2
      main/gzh.py

+ 28 - 49
README.md

@@ -1,56 +1,35 @@
-****************************************************************************************************
 # 微信公众号爬虫
+1. git:https://git.yishihui.com/Server/crawler_gzh.git
+2. 飞书:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA
 
-git:https://git.yishihui.com/Server/crawler_gzh.git
+#### 软件架构
+1. loguru==0.6.0 
+2. oss2==2.15.0 
+3. requests==2.27.1 
+4. urllib3==1.26.9 
+5. python==3.10
 
-飞书:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?
+#### 使用说明
+1. cd ./crawler_gzh 
+2. python3 main/run_gzh.py
 
-# 依赖库文件
-loguru==0.6.0
-oss2==2.15.0
-requests==2.27.1
-urllib3==1.26.9
-python==3.10
+#### 需求列表
 
-新入口:
-
-cd ./crawler_gzh
-
-python3 main/run_gzh.py 
-
-旧入口:
-
-cd ./crawler
-
-python3 ./crawler_gzh/main/run_gzh_recommend.py
-
-
-# 需求列表
+2022/9/22
+1. 账号爬取休眠时间调整:每次间隔休眠时间3--15分钟
+2. 账号爬取视频时间要求:近15天发布视频
 
 2022/8/17
-
-1.抓取用户主页 2021 年之后发布的视频
-
-2.每个用户每天抓取 10 条
-
-
-2022/8/4 https://w42nne6hzg.feishu.cn/docx/doxcndwbtMudFHh7r4alaJoykke
-
-1、任务开始时间
-
-每天早上8点-晚上21点
-
-2、抓取规则:
-
-视频时长1分钟以上,20分钟以下
-
-站内标题=公众号 视频原标题
-
-站内封面图=公众号 视频原封面图
-
-3、站内承接:
-
-每日入库100条视频
-
-视频随机分配到5个虚拟账号。uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]
-****************************************************************************************************
+1. 抓取用户主页 2021 年之后发布的视频
+2. 每个用户每天抓取 10 条
+
+
+2022/8/4 
+1. 任务开始时间: 每天早上8点-晚上21点 
+2. 抓取规则: 
+   1. 视频时长1分钟以上,20分钟以下 
+   2. 站内标题=公众号 视频原标题 
+   3. 站内封面图=公众号 视频原封面图 
+3. 站内承接: 
+   1. 每日入库100条视频 
+   2. 视频随机分配到5个虚拟账号, uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]

+ 6 - 2
main/gzh.py

@@ -236,6 +236,10 @@ class GZH:
                         # 判断无效文章
                         if gzh_url == 0:
                             Common.logger(log_type).info("无效文章\n")
+                        elif int(time.time()) - int(create_time) > 3600*24*10:
+                            Common.logger(log_type).info(
+                                "发布时间{}超过 10 天\n", time.strftime("%Y/%m/%d %H:%M:%S", time.localtime(create_time)))
+                            return
                         # 时长判断
                         elif int(duration) < 60:
                             Common.logger(log_type).info("时长:{}<60秒\n", duration)
@@ -276,7 +280,7 @@ class GZH:
                                 cls.gzh_count = []
                                 return
 
-                time.sleep(60*3)
+                time.sleep(10)
             except Exception as e:
                 Common.logger(log_type).error("get_gzh_url异常:{}\n", e)
 
@@ -294,7 +298,7 @@ class GZH:
                 Common.logger(log_type).info("下载/上传 {} 公众号视频\n", username)
                 cls.run_download_publish(log_type, env)
                 Common.logger(log_type).info("休眠 3 - 30 分钟")
-                time.sleep(random.randint(60*3, 60*30))
+                time.sleep(random.randint(60*3, 60*15))
         except Exception as e:
             Common.logger(log_type).error("get_all_gzh异常:{}\n", e)