This website works better with JavaScript
Inicio
Explorar
Axuda
Iniciar sesión
Server
/
crawler_xigua
Seguir
10
Destacar
0
Fork
0
Ficheiros
Incidencias
0
Pull Requests
0
Wiki
西瓜视频爬虫
13
Achegas
1
Branches
0
Lanzamentos
Árbore:
d6899a1cf6
Ramas
Etiquetas
master
crawler_xigua
HTTP
SSH
ZIP
TAR.GZ
wangkun
d6899a1cf6
update
%!s(int64=2) %!d(string=hai) anos
.idea
5324960f3c
first push
%!s(int64=2) %!d(string=hai) anos
main
d6899a1cf6
update
%!s(int64=2) %!d(string=hai) anos
.gitignore
5324960f3c
first push
%!s(int64=2) %!d(string=hai) anos
README.md
abf7c57d17
update
%!s(int64=2) %!d(string=hai) anos
README.md
crawler_xigua
git:
https://git.yishihui.com/Server/crawler_xigua
feishu:
https://w42nne6hzg.feishu.cn/sheets/shtcnvOpx2P8vBXiV91Ot1MKIw8?sheet=e075e9
软件架构
ffmpeg-python==0.2.0
ffmpeg==1.4
loguru==0.6.0
lxml==4.9.1
oss2==2.15.0
requests==2.27.1
selenium==4.2.0
urllib3==1.26.9
webdriver-manager==3.8.3
使用说明
cd ./crawler_xigua
python3 /main/run_xigua_follow.py
需求
2022/11/19
增加已下载表_11月之前
2022/9/28
排除置顶过期(发布时间超过10天)视频
2022/9/23
爬取时间:不限制时间:只要定向账号更新,就进行爬取
爬取规则:
视频时长:1分钟以上
视频数据(点赞+播放量)无要求
视频分辨率720以上
站内标题=西瓜视频原标题
站内封面图=西瓜视频原封面图
站内承接:
视频数量不限(因为这类账号一周基本上只更新1-7条左右,较少是日更的)
由于是定向账号抓取,所以,视频和账号要一对一匹配,目前有个疑问,新的爬虫可否直接把抓取的内容,继续承接在之前老的爬虫账号上?如果不能实现,那就用新的虚拟账号进行承接。
账号分两种:老账号直接承接,新账号另找新的虚拟账号,原则,定向爬取,一对一。
注意事项:目前账号有两种类型,一种是老账号,一种是新账号,老账号抓取时间,只需要按照爬虫上线的时间进行抓取最近刚发的内容即可。
过滤词: 毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、拜登、普京、佩洛西、蔡英文,后续继续补充