README.md 1.1 KB

#**************************************************************************************************** #

微信公众号爬虫

git:https://git.yishihui.com/Server/crawler_gzh.git

feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA?

#

依赖库文件

loguru==0.6.0

oss2==2.15.0

requests==2.27.1

urllib3==1.26.9

python==3.10

新入口

cd ./crawler_gzh

python3 main/run_gzh.py

#

旧入口:

cd ./crawler

python3 ./crawler_gzh/main/run_gzh_recommend.py

# #

需求列表

2022/8/17

1.抓取用户主页 2021 年之后发布的视频

2.每个用户每天抓取 10 条

#

2022/8/4 https://w42nne6hzg.feishu.cn/docx/doxcndwbtMudFHh7r4alaJoykke

1、任务开始时间

每天早上8点-晚上21点

2、抓取规则:

视频时长1分钟以上,20分钟以下

站内标题=公众号 视频原标题

站内封面图=公众号 视频原封面图

3、站内承接:

每日入库100条视频

视频随机分配到5个虚拟账号。uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]

#****************************************************************************************************