# AutoScraperX 配置说明

本文档详细说明了AutoScraperX项目的配置项。

---

# 环境配置说明

环境配置通过 `.env` 文件进行配置，以下为所有可配置项:

| 配置项 | 描述 | 是否必填 | 默认值 |
|--------|------|----------|--------|
| ENV | 运行环境 (可选值: prod, dev) | 否 | prod |
| DB_HOST | 数据库主机地址 | 是 |  |
| DB_PORT | 数据库端口 | 否 | 3306 |
| DB_USER | 数据库用户名 | 是 |  |
| DB_PASSWORD | 数据库密码 | 是 |  |
| DB_NAME | 数据库名称 | 是 |  |
| DB_CHARSET | 数据库字符集 | 是 |  |
| ROCKETMQ_ENDPOINT | RocketMQ接入点 | 是 |  |
| ROCKETMQ_ACCESS_KEY_ID | RocketMQ访问密钥ID | 是 |  |
| ROCKETMQ_ACCESS_KEY_SECRET | RocketMQ访问密钥 | 是 |  |
| FEISHU_APPID | 飞书应用ID | 是 |  |
| FEISHU_APPSECRET | 飞书应用密钥 | 是 |  |
| ALIYUN_ACCESS_KEY_ID | 阿里云访问密钥ID | 是 |  |
| ALIYUN_ACCESS_KEY_SECRET | 阿里云访问密钥 | 是 |  |
| REDIS_HOST | Redis主机地址 | 是 |  |
| REDIS_PORT | Redis端口 | 否 | 6379 |
| REDIS_PASSWORD | Redis密码 | 是 |  |

---

# 爬虫配置说明

爬虫配置通过 `config/spiders_config.yaml` 文件进行配置。

## 配置示例

```yaml
default:
  base_url: http://8.217.192.46:8889
  request_timeout: 30
  max_retries: 3
  headers:
    {"Content-Type": "application/json"}

benshanzhufurecommend:
  platform: benshanzhufu
  mode: recommend
  path: /crawler/ben_shan_zhu_fu/recommend
  method: post
  request_body:
    cursor: "{{next_cursor}}"
  loop_times: 50
  loop_interval:
    min: 30
    max: 60
  feishu_sheetid: "aTSJH4"
  response_parse:
    data: "$.data"
    next_cursor: "$.data.next_cursor"
    data_path: "$.data.data"
    fields:
      video_id: "$.nid"
      video_title: "$.title"
      play_cnt: 0
      publish_time_stamp: "$.update_time"
      out_user_id: "$.nid"
      cover_url: "$.video_cover"
      like_cnt: 0
      video_url: "$.video_url"
      out_video_id: "$.nid"


yuannifuqimanmanrecommend:
  platform: yuannifuqimanman
  mode: recommend
  path: /crawler/yuan_ni_fu_qi_man_man/recommend
  method: post
  request_body:
    cursor: "{{next_cursor}}"
  loop_times: 100
  loop_interval:
    min: 30
    max: 60
  feishu_sheetid: "golXy9"
  response_parse:
    data: "$.data"
    next_cursor: "$.data.next_cursor"
    data_path: "$.data.data"
    fields:
      video_id: "$.nid"
      video_title: "$.title"
      out_user_id: "$.nid"
      cover_url: "$.video_cover"
      video_url: "$.video_url"
      out_video_id: "$.nid"

xiaoniangaoauthor:
  platform: xiaoniangao
  mode: author
  path: /crawler/xiao_nian_gao_plus/blogger
  method: post
  request_body:
      cursor: "{{next_cursor}}"
      account_id: "{{uid}}" # 数据库的uid
  loop_times: 100
  loop_interval:
    min: 5
    max: 20
  feishu_sheetid: "golXy9"
  response_parse:
    uid: "$.uid" # 数据库的uid
    next_cursor: "$.cursor"
    data: "$.data"
    has_more: "$.data.has_more"
    data_path: "$.data.data"
    fields:
      video_title: "$.title"
      duration: "$.du"
      play_cnt: "$.play_pv"
      like_cnt: "$.favor.total"
      comment_cnt: "$.comment_count"
      share_cnt: "$.share"
      width: "$.w"
      height: "$.h"
      avatar_url: "$.user.hurl"
      cover_url: "$.url"
      video_url: "$.v_url"
      out_user_id: "$.user.mid"
      out_video_id: "$.vid"
      publish_time_stamp: "$.t"


```

## 字段说明

### 全局配置字段

| 字段 | 描述 |
|------|------|
| base_url | 基础URL，用于拼接完整请求URL |
| request_timeout | 请求超时时间（秒） |
| max_retries | 最大重试次数 |
| headers | 请求头信息 |

### 平台配置字段

| 字段 | 描述 |
|------|------|
| platform | 平台名称 |
| mode | 爬取模式（如 recommend, author） |
| path | API路径 |
| url | 完整请求URL |
| method | HTTP请求方法 |
| request_body | 请求体参数 |
| loop_times | 循环次数 |
| loop_interval | 循环间隔（min/max） |
| response_parse | 响应解析配置 |
| feishu_sheetid | 飞书表格ID |

### 响应解析字段

| 字段 | 描述 |
|------|------|
| data_path | 数据列表路径 |
| next_cursor | 下一页游标路径 |
| has_more | 是否还有更多数据路径 |
| fields | 字段映射配置 |

---

## 当前配置状态

- 平台配置数量: 3
- 运行环境: prod
- 配置文件路径: /AutoScraperX/config/spiders_config.yaml