This website works better with JavaScript
首頁
探索
說明
登入
Server
/
crawler_gzh
關註
10
讚好
0
複刻
0
Files
問題管理
0
合併請求
0
Wiki
微信公众号爬虫
44
提交歷史
1
Branches
0
版本發佈
分支:
master
分支列表
標籤列表
master
crawler_gzh
HTTP
SSH
ZIP
TAR.GZ
wangkun
156c473053
update
2 年之前
main
156c473053
update
2 年之前
.gitignore
e4e8803494
push .gitignore
2 年之前
README.md
1bd806a03b
update
2 年之前
README.md
微信公众号爬虫
git:
https://git.yishihui.com/Server/crawler_gzh.git
飞书:
https://w42nne6hzg.feishu.cn/sheets/shtcnexNXnpDLHhARw0QdiwbYuA
软件架构
loguru==0.6.0
oss2==2.15.0
requests==2.27.1
urllib3==1.26.9
python==3.10
使用说明
cd ./crawler_gzh
python3 main/run_gzh.py
需求列表
2022/9/26
修改抓取规则,一个个用户进行抓取/下载/上传
2022/9/23
账号爬取视频时间要求:近3天发布视频
只抓1条视频/人
2022/9/22
账号爬取休眠时间调整:每次间隔休眠时间3--15分钟
账号爬取视频时间要求:近15天发布视频
2022/8/17
抓取用户主页 2021 年之后发布的视频
每个用户每天抓取 10 条
2022/8/4
任务开始时间: 每天早上8点-晚上21点
抓取规则:
视频时长1分钟以上,20分钟以下
站内标题=公众号 视频原标题
站内封面图=公众号 视频原封面图
站内承接:
每日入库100条视频
视频随机分配到5个虚拟账号, uid列表:[20631273, 20631274, 20631275, 20631276, 20631277]