This website works better with JavaScript
Inicio
Explorar
Axuda
Iniciar sesión
Server
/
crawler_gongzhonghao
Seguir
11
Destacar
0
Fork
0
Ficheiros
Incidencias
0
Pull Requests
0
Wiki
公众号_信欣_爬虫
7
Achegas
1
Branches
0
Lanzamentos
Rama:
master
Ramas
Etiquetas
master
crawler_gong...
HTTP
SSH
ZIP
TAR.GZ
wangkun
9aefbd4851
update
%!s(int64=2) %!d(string=hai) anos
main
9aefbd4851
update
%!s(int64=2) %!d(string=hai) anos
.gitignore
bbc7eec75a
add readme
%!s(int64=2) %!d(string=hai) anos
README.MD
1fc219cf41
update
%!s(int64=2) %!d(string=hai) anos
gongzhonghao.sh
f5ce09b69a
update readme
%!s(int64=2) %!d(string=hai) anos
README.MD
微信公众号爬虫
文档链接
Git
Jenkins
公众号_信欣_爬虫表
需求文档
软件架构
python==3.10
loguru==0.6.0
oss2==2.15.0
psutil==5.9.2
requests==2.27.1
selenium==4.4.3
urllib3==1.26.9
ffmpeg==1.4
使用说明
cd ./crawler_gongzhonghao && sh gongzhonghao.sh
或者,Jenkins 重新构建
更新记录
2023/01/17
对文章中全部视频进行抓取
根据视频 ID 去重的基础上,再进行视频标题相似度进行排重,>80%即认为重复内容
抓取完一个人,休眠 1 分钟;抓取完所有人,休眠 1 小时
站内承接账号[26117675, 26117676, 26117677, 26117678, 26117679, 26117680]