西瓜视频爬虫
crawler_xigua
- git:https://git.yishihui.com/Server/crawler_xigua
- feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnvOpx2P8vBXiV91Ot1MKIw8?sheet=e075e9
软件架构
- ffmpeg-python==0.2.0
- ffmpeg==1.4
- loguru==0.6.0
- lxml==4.9.1
- oss2==2.15.0
- requests==2.27.1
- selenium==4.2.0
- urllib3==1.26.9
- webdriver-manager==3.8.3
使用说明
- cd ./crawler_xigua
- python3 /main/run_xigua_follow.py
需求
2022/11/19
- 增加已下载表_11月之前
2022/9/28
- 排除置顶过期(发布时间超过10天)视频
2022/9/23
- 爬取时间:不限制时间:只要定向账号更新,就进行爬取
- 爬取规则:
- 视频时长:1分钟以上
- 视频数据(点赞+播放量)无要求
- 视频分辨率720以上
- 站内标题=西瓜视频原标题
- 站内封面图=西瓜视频原封面图
- 站内承接:
- 视频数量不限(因为这类账号一周基本上只更新1-7条左右,较少是日更的)
- 由于是定向账号抓取,所以,视频和账号要一对一匹配,目前有个疑问,新的爬虫可否直接把抓取的内容,继续承接在之前老的爬虫账号上?如果不能实现,那就用新的虚拟账号进行承接。
- 账号分两种:老账号直接承接,新账号另找新的虚拟账号,原则,定向爬取,一对一。
- 注意事项:目前账号有两种类型,一种是老账号,一种是新账号,老账号抓取时间,只需要按照爬虫上线的时间进行抓取最近刚发的内容即可。
- 过滤词: 毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、拜登、普京、佩洛西、蔡英文,后续继续补充