|
@@ -1,37 +1,55 @@
|
|
|
****************************************************************************************************
|
|
|
-微信公众号爬虫
|
|
|
+#微信公众号爬虫
|
|
|
+
|
|
|
git:https://git.yishihui.com/Server/crawler_gzh.git
|
|
|
-feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?
|
|
|
|
|
|
-依赖库文件
|
|
|
+飞书:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?
|
|
|
+
|
|
|
+#依赖库文件
|
|
|
loguru==0.6.0
|
|
|
oss2==2.15.0
|
|
|
requests==2.27.1
|
|
|
urllib3==1.26.9
|
|
|
python==3.10
|
|
|
|
|
|
-新入口
|
|
|
+新入口:
|
|
|
+
|
|
|
cd ./crawler_gzh
|
|
|
+
|
|
|
python3 main/run_gzh.py
|
|
|
|
|
|
-旧入口:
|
|
|
+旧入口:
|
|
|
+
|
|
|
cd ./crawler
|
|
|
+
|
|
|
python3 ./crawler_gzh/main/run_gzh_recommend.py
|
|
|
|
|
|
|
|
|
-需求列表
|
|
|
+#需求列表
|
|
|
+
|
|
|
2022/8/17
|
|
|
+
|
|
|
1.抓取用户主页 2021 年之后发布的视频
|
|
|
+
|
|
|
2.每个用户每天抓取 10 条
|
|
|
|
|
|
2022/8/4 https://w42nne6hzg.feishu.cn/docx/doxcndwbtMudFHh7r4alaJoykke
|
|
|
+
|
|
|
1、任务开始时间
|
|
|
+
|
|
|
每天早上8点-晚上21点
|
|
|
+
|
|
|
2、抓取规则:
|
|
|
+
|
|
|
视频时长1分钟以上,20分钟以下
|
|
|
+
|
|
|
站内标题=公众号 视频原标题
|
|
|
+
|
|
|
站内封面图=公众号 视频原封面图
|
|
|
+
|
|
|
3、站内承接:
|
|
|
+
|
|
|
每日入库100条视频
|
|
|
+
|
|
|
视频随机分配到5个虚拟账号。uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]
|
|
|
****************************************************************************************************
|