# 内容识别脚本使用说明

## 功能描述

`content_identify.py` 脚本实现了以下功能：

1. **读取飞书表格数据**：从指定的飞书多维表格中读取数据
2. **调用Coze工作流**：对每条记录调用Coze工作流进行内容识别
3. **结果写回**：将Coze返回的识别结果写回飞书表格

## 环境配置

### 必需的环境变量

在 `.env` 文件中设置以下环境变量：

```bash
# 飞书配置
FEISHU_APP_ID=your_app_id
FEISHU_APP_SECRET=your_app_secret
FEISHU_FILE_TOKEN=your_file_token
FEISHU_TABLE_ID=your_table_id

# 可选：自定义字段名称
FEISHU_INPUT_FIELD=抓取结果      # 输入内容字段名
FEISHU_OUTPUT_FIELD=识别结果     # 输出结果字段名
FEISHU_TITLE_FIELD=标题          # 标题字段名
FEISHU_IMAGE_FIELD=图片链接      # 图片链接字段名
```

### 飞书表格结构

飞书表格应包含以下字段：
- **标题**：内容的标题
- **抓取结果**：需要识别的内容文本
- **图片链接**：相关的图片URL列表
- **识别结果**：Coze工作流的识别结果（会自动填充）

## 使用方法

### 1. 直接运行脚本

```bash
cd xhs
python content_identify.py
```

### 2. 在代码中调用

```python
from xhs.content_identify import ContentIdentifier

# 创建实例
identifier = ContentIdentifier()

# 处理所有记录
identifier.process_all_records()
```

### 3. 运行测试脚本

在运行主脚本之前，建议先运行测试脚本验证配置：

```bash
cd xhs
python test_content_identify.py
```

测试脚本会检查：
- 环境变量配置
- 飞书API连接
- Coze API连接
- ContentIdentifier类初始化

## 脚本特性

### 智能处理
- **跳过已处理记录**：如果某条记录已有识别结果，会自动跳过
- **空内容检查**：没有输入内容的记录会被跳过
- **分页处理**：支持大量数据的分页处理

### 错误处理
- **API调用失败**：Coze API调用失败时会记录错误信息
- **数据提取失败**：无法提取数据时会记录详细错误
- **网络异常**：网络问题时会自动重试

### 性能优化
- **API限制**：每次调用后添加1秒延迟，避免触发API限制
- **批量处理**：支持批量获取和更新记录
- **内存优化**：分页处理避免内存溢出

## 输出日志

脚本运行时会输出详细的处理日志：

```
开始处理飞书表格 tblxxxxxxxxx 中的所有记录
获取到 10 条记录
处理记录 recxxxxxxxxx
标题: 这是一个测试标题...
内容长度: 1234 字符
图片数量: 3
正在调用Coze工作流，标题: 这是一个测试标题...
Coze工作流调用成功
已更新记录 recxxxxxxxxx
处理完成！总共处理 10 条记录，成功 10 条
```

## 故障排除

### 常见问题

1. **环境变量未设置**
   - 确保所有必需的环境变量都已正确设置
   - 检查 `.env` 文件是否存在且格式正确

2. **飞书API权限问题**
   - 检查 `FEISHU_APP_ID` 和 `FEISHU_APP_SECRET` 是否正确
   - 确认应用有访问多维表格的权限

3. **Coze API调用失败**
   - 检查Coze工作流ID是否正确
   - 确认API密钥有效且有调用权限

4. **字段名称不匹配**
   - 检查飞书表格中的字段名称是否与配置一致
   - 可以通过环境变量自定义字段名称

### 调试模式

如需更详细的调试信息，可以修改脚本中的日志级别或添加更多打印语句。