|
@@ -9,34 +9,30 @@ description: 内容搜索方法论
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
|
-## 第一步:需求分析与关键词提取
|
|
|
|
|
|
|
+## 第一步:关键词提取
|
|
|
|
|
|
|
|
-- 从用户需求中提取核心关键词和扩展关键词,优先使用用户原话
|
|
|
|
|
-- 按相关性排序:用户明确说的 > 用户暗示的 > 推测的
|
|
|
|
|
|
|
+- 从`需求分析`中提取若干搜索词。
|
|
|
- 确定目标数量 **M**(如"找10条",则 M = 10)
|
|
- 确定目标数量 **M**(如"找10条",则 M = 10)
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
|
## 第二步:串行关键词搜索
|
|
## 第二步:串行关键词搜索
|
|
|
|
|
|
|
|
|
|
+### 优先:抖音搜索
|
|
|
|
|
+**搜索词限制**: 仅搜索第一步中输出的搜索词,严谨联想或者扩展其他词搜索。
|
|
|
**数量控制**:只搜索 **N = M × 2** 条,搜到后立即停止,不超出此限制。
|
|
**数量控制**:只搜索 **N = M × 2** 条,搜到后立即停止,不超出此限制。
|
|
|
|
|
+**数据读取规则**:
|
|
|
|
|
+- 搜索结果从 `metadata.search_results` 获取,**不要解析工具的 output 文本**
|
|
|
|
|
+- 账号作品从 `metadata.user_videos` 获取
|
|
|
|
|
+- 数据库作者从 `find_authors_from_db` 的 `metadata.authors` 获取(优先使用其中的 `author_sec_uid`)
|
|
|
|
|
+**分页策略**:第一次使用默认 cursor(`"0"` 或 `""`),需要更多时使用返回的 cursor 继续获取。
|
|
|
|
|
|
|
|
### 备选:历史优质作者扩展(备选策略)
|
|
### 备选:历史优质作者扩展(备选策略)
|
|
|
-
|
|
|
|
|
当关键词搜索结果质量不稳定、或需要更贴近目标人群的内容时,可走“作者→作品”的扩展路径:
|
|
当关键词搜索结果质量不稳定、或需要更贴近目标人群的内容时,可走“作者→作品”的扩展路径:
|
|
|
-
|
|
|
|
|
- 先调用 `find_authors_from_db(query)`:从数据库历史沉淀中按搜索词找到相关优质作者(返回 `author_sec_uid`)
|
|
- 先调用 `find_authors_from_db(query)`:从数据库历史沉淀中按搜索词找到相关优质作者(返回 `author_sec_uid`)
|
|
|
- 再对 Top 作者调用 `douyin_user_videos(account_id=author_sec_uid)` 拉作品,作为候选池补充
|
|
- 再对 Top 作者调用 `douyin_user_videos(account_id=author_sec_uid)` 拉作品,作为候选池补充
|
|
|
-
|
|
|
|
|
**仍需遵守数量控制**:作者扩展拿到的作品也计入候选数量,总量不要超过 **N = M × 2**。
|
|
**仍需遵守数量控制**:作者扩展拿到的作品也计入候选数量,总量不要超过 **N = M × 2**。
|
|
|
|
|
|
|
|
-**数据读取规则**:
|
|
|
|
|
-- 搜索结果从 `metadata.search_results` 获取,**不要解析工具的 output 文本**
|
|
|
|
|
-- 账号作品从 `metadata.user_videos` 获取
|
|
|
|
|
-- 数据库作者从 `find_authors_from_db` 的 `metadata.authors` 获取(优先使用其中的 `author_sec_uid`)
|
|
|
|
|
-
|
|
|
|
|
-**分页策略**:第一次使用默认 cursor(`"0"` 或 `""`),需要更多时使用返回的 cursor 继续获取。
|
|
|
|
|
-
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
|
## 第三步:数据真实性规范(严格遵守)
|
|
## 第三步:数据真实性规范(严格遵守)
|
|
@@ -45,7 +41,6 @@ description: 内容搜索方法论
|
|
|
|
|
|
|
|
### 字段完整性要求
|
|
### 字段完整性要求
|
|
|
- `author.sec_uid`:约 80 字符,必须**逐字符完整复制**,不能截断或修改
|
|
- `author.sec_uid`:约 80 字符,必须**逐字符完整复制**,不能截断或修改
|
|
|
- - 格式校验:必须以 `MS4wLjABAAAA` 开头,后跟约 68 个字符
|
|
|
|
|
- `aweme_id`、作者名、热度数据必须来自**同一条记录**,不能混用
|
|
- `aweme_id`、作者名、热度数据必须来自**同一条记录**,不能混用
|
|
|
|
|
|
|
|
### 正确做法
|
|
### 正确做法
|