This website works better with JavaScript
Startsida
Utforska
Hjälp
Logga in
Server
/
crawler_xiaoniangao
Bevaka
9
Stjärnmärk
0
Fork
0
Filer
Ärenden
0
Pull-förfrågningar
0
Wiki
Ingen beskrivning
75
Incheckningar
1
Branches
0
Släpp
Gren:
master
Grenar
Taggar
master
crawler_xiao...
HTTP
SSH
ZIP
TAR.GZ
wangkun
4e3696177c
update
2 år sedan
logs
641e884653
first push
2 år sedan
main
4e3696177c
update
2 år sedan
videos
641e884653
first push
2 år sedan
.gitignore
99d84a9b42
push .gitignore
2 år sedan
README.md
4eede34542
update
2 år sedan
xiaoniangao.sh
24551dec32
update
2 år sedan
README.md
小年糕爬虫
文档
GIT:
https://git.yishihui.com/Server/crawler-xiaoniangao.git
云文档:
https://w42nne6hzg.feishu.cn/sheets/shtcnYxiyQ1wLklo1W5Kdqc9cGh?sheetyatRv2
软件架构
ffmpeg1.4
ffmpeg_python0.2.0
loguru0.6.0
oss22.15.0
requests2.27.1
urllib31.26.9
python3.10
使用说明
cd ./crawler_xiaoniangao
python3 main/run_recommend.py
python3 main/run_person.py
python3 main/run_play.py
需求
2022/10/19
已下载视频分表: 小时级_已下载表、用户主页_已下载表、播放量_已下载表
三种规则分别增加报警监控
2022/9/9
增加已下载去重表:sheet=2zD8cv
2022/9/7
新增播放量下载规则
播放量>=10W
发布时间<=30天
运行时间 6 - 18 点
2022/9/5
修复个人主页抓取无权限写入飞书文档的问题
小时榜下载规则修改:播放量>=10W -> 播放量>=5W
2022/7/06 新增:用户主页抓取视频
发布时间 72 小时内
播放量 > 2000
时长 > 1 分钟
抓取间隔时长: 1 小时
2022/6/29
已下载视频表:预留前 5 列备用
已下载视频表增加列:站内视频链接
已下载视频,同步信息至监控表:
https://w42nne6hzg.feishu.cn/sheets/shtcnlZWYazInhf7Z60jkbLRJyd?sheet6fed97
2022/6/17
小时榜抓取基础规则
时长>40s
发布时间<10天
播放量>4000
过滤无效视频(标题、ID、时长等为空)
过滤敏感词库
从已下载表中去重
从小时榜表中去重
小时榜更新规则:
抓取时间<2天
每天 10、15、20 点更新播放量的差值(上升榜中写入的数据:当前播放量 - 上个时间段的播放量)
小时榜下载规则
抓取时间<3天
视频时长>40s
任意时间段播放量上升>5000 或 连续两个时间段播放量上升>2000
关注榜抓取基础规则
时长>40s
发布时间<2天
播放量>5000
关注榜下载规则
过滤无效视频(标题、ID、时长等为空)
过滤敏感词库
从已下载表中去重
上传视频时,info.txt文件中的视频信息包含
str(download_video_id)
str(download_video_title)
str(download_video_duration)
str(download_video_play_cnt)
str(download_video_comment_cnt)
str(download_video_like_cnt)
str(download_video_share_cnt)
str(download_video_resolution)
str(download_video_send_time)
str(download_user_name)
str(download_head_url)
str(download_video_url)
str(download_cover_url)
str(download_video_session)