content_finding_strategy.md 3.3 KB


name: content_finding_strategy

description: 内容寻找方法论

内容寻找方法论

核心流程:关键词提取 → 寻找策略确定 → 策略内容 → 结果评估

第1步:关键词提取

  • 搜索词来自于需求分析步骤的输出,提取高赞case出发搜索词特征出发搜索词
  • 确定目标数量 M(如"找10条",则 M = 10)
  • 所有的搜索词必须取自高赞case出发搜索词特征出发搜索词,不允许联想其他词。

第2步:寻找策略

策略汇总

  1. 抖音搜索(已实现)
  2. 索引榜单搜索(暂未实现,可不执行)
  3. 垂类推荐流(暂未实现, 可不执行)
  4. 订阅账号作品搜索(已实现)

寻找策略确定

  1. 搜索词只能来源于 第一步:关键词提取
  2. ‼️重要:严谨联想或扩展搜索词。
  3. 具象的搜索词优先 抖音搜索,抽象的搜索词优先订阅账号作品搜索
  4. 无论具象或者抽象,都需要按优先级执行所有的策略,不能跳过

第3步:策略执行

抖音搜索

搜索词限制: 仅搜索第一步中输出的搜索词,严谨联想或者扩展其他词搜索。 数量控制:只搜索 N = M × 2 条,搜到后立即停止,不超出此限制。 数据读取规则

  • 搜索结果从 metadata.search_results 获取,不要解析工具的 output 文本
  • 账号作品从 metadata.user_videos 获取
  • 数据库作者从 find_authors_from_dbmetadata.authors 获取(优先使用其中的 author_sec_uid分页策略:第一次使用默认 cursor("0"""),需要更多时使用返回的 cursor 继续获取,最多搜索2页兜底策略douyin_search 失败或无结果时,使用 douyin_search_tikhub

订阅账号作品搜索

  • 先调用 find_authors_from_db(query):用 query 与历史表 content_tags 文字匹配,取匹配度最高的作者(默认最多 3 个,返回 author_sec_uid
  • 再对 Top 作者调用 douyin_user_videos(account_id=author_sec_uid) 拉作品,作为候选池补充 仍需遵守数量控制:作者扩展拿到的作品也计入候选数量,总量不要超过 N = M × 2

第4步:结果评估

禁止编造数据,所有字段必须来自工具返回的 metadata。

字段完整性要求

  • author.sec_uid:约 80 字符,必须逐字符完整复制,不能截断或修改
  • aweme_id、作者名、热度数据必须来自同一条记录,不能混用

正确做法

item = metadata.search_results[0]
aweme_id = item["aweme_id"]         # 直接取,不修改
sec_uid = item["author"]["sec_uid"]  # 完整复制,约 80 字符

禁止行为

❌ 编造 sec_uid
❌ 截断 sec_uid
❌ 从 output 文本中解析数据
❌ 混用不同记录的字段

违反后果:编造数据会导致 404 错误,严重影响用户体验。

错误处理

错误类型 处理策略
HTTP 502/503/504 服务暂时不可用,最多重试 1 次,失败则告知用户
HTTP 400/404 检查参数格式,调整后重试
Timeout 重试 1 次,仍超时则告知用户
网络错误 重试 1-2 次,持续失败则告知用户

不要切换到其他平台或工具。