西瓜视频爬虫

wangkun b796553442 update %!s(int64=2) %!d(string=hai) anos
.idea 5324960f3c first push %!s(int64=2) %!d(string=hai) anos
main 1499739131 update %!s(int64=2) %!d(string=hai) anos
.gitignore 5324960f3c first push %!s(int64=2) %!d(string=hai) anos
README.md abf7c57d17 update %!s(int64=2) %!d(string=hai) anos
xigua.sh b796553442 update %!s(int64=2) %!d(string=hai) anos

README.md

crawler_xigua

  1. git:https://git.yishihui.com/Server/crawler_xigua
  2. feishu:https://w42nne6hzg.feishu.cn/sheets/shtcnvOpx2P8vBXiV91Ot1MKIw8?sheet=e075e9

软件架构

  1. ffmpeg-python==0.2.0
  2. ffmpeg==1.4
  3. loguru==0.6.0
  4. lxml==4.9.1
  5. oss2==2.15.0
  6. requests==2.27.1
  7. selenium==4.2.0
  8. urllib3==1.26.9
  9. webdriver-manager==3.8.3

使用说明

  1. cd ./crawler_xigua
  2. python3 /main/run_xigua_follow.py

需求

2022/11/19

  1. 增加已下载表_11月之前

2022/9/28

  1. 排除置顶过期(发布时间超过10天)视频

2022/9/23

  1. 爬取时间:不限制时间:只要定向账号更新,就进行爬取
  2. 爬取规则:
    1. 视频时长:1分钟以上
    2. 视频数据(点赞+播放量)无要求
    3. 视频分辨率720以上
    4. 站内标题=西瓜视频原标题
    5. 站内封面图=西瓜视频原封面图
  3. 站内承接:
    1. 视频数量不限(因为这类账号一周基本上只更新1-7条左右,较少是日更的)
    2. 由于是定向账号抓取,所以,视频和账号要一对一匹配,目前有个疑问,新的爬虫可否直接把抓取的内容,继续承接在之前老的爬虫账号上?如果不能实现,那就用新的虚拟账号进行承接。
    3. 账号分两种:老账号直接承接,新账号另找新的虚拟账号,原则,定向爬取,一对一。
  4. 注意事项:目前账号有两种类型,一种是老账号,一种是新账号,老账号抓取时间,只需要按照爬虫上线的时间进行抓取最近刚发的内容即可。
  5. 过滤词: 毛泽东、毛主席、周恩来、林彪、习近平、习大大、彭丽媛、拜登、普京、佩洛西、蔡英文,后续继续补充