소스 검색

全自动爬取

wangkun 2 년 전
부모
커밋
3d18f80536
1개의 변경된 파일37개의 추가작업 그리고 38개의 파일을 삭제
  1. 37 38
      README.md

+ 37 - 38
README.md

@@ -1,38 +1,37 @@
-#****************************************************************************************************
-#
-# 微信公众号爬虫
-# git:https://git.yishihui.com/Server/crawler_gzh.git
-# feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?
-#
-# 依赖库文件
-# loguru==0.6.0
-# oss2==2.15.0
-# requests==2.27.1
-# urllib3==1.26.9
-# python==3.10
-# 
-# 新入口
-# cd ./crawler_gzh
-# python3 main/run_gzh.py 
-#
-# 旧入口:
-# cd ./crawler
-# python3 ./crawler_gzh/main/run_gzh_recommend.py
-#
-#
-# 需求列表
-# 2022/8/17
-# 1.抓取用户主页 2021 年之后发布的视频
-# 2.每个用户每天抓取 10 条
-#
-# 2022/8/4 https://w42nne6hzg.feishu.cn/docx/doxcndwbtMudFHh7r4alaJoykke
-# 1、任务开始时间
-# 每天早上8点-晚上21点
-# 2、抓取规则:
-# 视频时长1分钟以上,20分钟以下
-# 站内标题=公众号 视频原标题
-# 站内封面图=公众号 视频原封面图
-# 3、站内承接:
-# 每日入库100条视频
-# 视频随机分配到5个虚拟账号。uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]
-#****************************************************************************************************
+****************************************************************************************************
+微信公众号爬虫
+git:https://git.yishihui.com/Server/crawler_gzh.git
+feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?
+
+依赖库文件
+loguru==0.6.0
+oss2==2.15.0
+requests==2.27.1
+urllib3==1.26.9
+python==3.10
+
+新入口
+cd ./crawler_gzh
+python3 main/run_gzh.py 
+
+旧入口:
+cd ./crawler
+python3 ./crawler_gzh/main/run_gzh_recommend.py
+
+
+需求列表
+2022/8/17
+1.抓取用户主页 2021 年之后发布的视频
+2.每个用户每天抓取 10 条
+
+2022/8/4 https://w42nne6hzg.feishu.cn/docx/doxcndwbtMudFHh7r4alaJoykke
+1、任务开始时间
+每天早上8点-晚上21点
+2、抓取规则:
+视频时长1分钟以上,20分钟以下
+站内标题=公众号 视频原标题
+站内封面图=公众号 视频原封面图
+3、站内承接:
+每日入库100条视频
+视频随机分配到5个虚拟账号。uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]
+****************************************************************************************************