|
@@ -0,0 +1,684 @@
|
|
|
|
|
+# Content Find Agent v2 Data Interface
|
|
|
|
|
+
|
|
|
|
|
+更新时间:2026-06-04
|
|
|
|
|
+
|
|
|
|
|
+## 0. 证据口径
|
|
|
|
|
+
|
|
|
|
|
+本文只记录旧版代码、旧版接口审计、DB-first schema inventory、ContentFindAgent 数据工程 run 和 subagent 交叉验证过的数据接口。
|
|
|
|
|
+
|
|
|
|
|
+| 状态 | 含义 |
|
|
|
|
|
+|---|---|
|
|
|
|
|
+| 已验证 | 已有 DB / API 只读验证或旧版实测结果 |
|
|
|
|
|
+| 源码定位 | 旧版代码能定位到接口或写入逻辑,但本次未实连 |
|
|
|
|
|
+| blocked | 因 token、只读条件或副作用限制未实连 |
|
|
|
|
|
+| pending / 待接入 | DB 字段存在,产品应接入,但旧版 ContentFindAgent 未作为主链路实现 |
|
|
|
|
|
+| source-only | 已有配置来源或源码来源,但本轮未作为主链路实连验证 |
|
|
|
|
|
+| missing | 变量、key、表或 API 未找到可用真实值 |
|
|
|
|
|
+| 缺口 | 没有真实表、真实接口或稳定字段,不能写成已接入 |
|
|
|
|
|
+
|
|
|
|
|
+不把 `show` 静态样例、小红书搜索、共创作者、相似作者、候选池、淘汰原因表写成已验证接口。
|
|
|
|
|
+
|
|
|
|
|
+### 0.1 阅读方式
|
|
|
|
|
+
|
|
|
|
|
+每个阶段都按“短索引 + 详情块”组织:
|
|
|
|
|
+
|
|
|
|
|
+- 短索引只看接口、用途和状态,方便快速扫读。
|
|
|
|
|
+- 详情块再看输入字段、输出字段和边界,避免长表在窄屏下挤成一行。
|
|
|
|
|
+- 缺口统一放在最后,避免和已验证接口混在一起。
|
|
|
|
|
+
|
|
|
|
|
+### 0.2 环境配置和只读验证摘要
|
|
|
|
|
+
|
|
|
|
|
+本节吸收原环境缺口报告的确认结果,只记录变量名、能力和验证状态,不记录密码、token、AK/SK 或完整 DSN。
|
|
|
|
|
+
|
|
|
|
|
+#### 已验证配置
|
|
|
|
|
+
|
|
|
|
|
+- `.env` 结构:pass
|
|
|
|
|
+ - 对象:根目录 `.env`
|
|
|
|
|
+ - 注释:共 `139` 个变量,无重复 key;本地私有文件,不进入代码仓库。
|
|
|
|
|
+- 旧版 env 覆盖:pass
|
|
|
|
|
+ - 对象:旧仓 Python `os.getenv(...)`
|
|
|
|
|
+ - 注释:旧代码中发现的 `52` 个 getenv 变量都已在 `.env` 中覆盖。
|
|
|
|
|
+- 业务库:pass
|
|
|
|
|
+ - 变量:`DB_*`, `CONTENT_SUPPLY_DB_*`, `CONTENTFIND_DB_*`
|
|
|
|
|
+ - 注释:`demand_content`, `workflow_decode_task_result`, `demand_find_author`, `demand_find_content_result`, `demand_find_task`, `demand_task_oprate` 均只读通过。
|
|
|
|
|
+- Pattern 库:pass
|
|
|
|
|
+ - 变量:`OPEN_AIGC_PATTERN_DB_*`, `PATTERN_GLOBAL_DB_*`, `CONTENTFIND_PATTERN_DB_*`
|
|
|
|
|
+ - 注释:`topic_pattern_element`, `topic_pattern_itemset`, `topic_pattern_category` 均只读通过。
|
|
|
|
|
+- Crawapi 抖音接口:pass
|
|
|
|
|
+ - 变量:`CONTENTFIND_API_CRAWAPI_BASE_URL`, `CONTENTFIND_DOUYIN_*`, `CONTENTFIND_HOT_TOPIC_PATH`
|
|
|
|
|
+ - 注释:抖音关键词、作者作品、内容画像、账号画像、今日热榜均只读通过。
|
|
|
|
|
+- AIGC plan detail:pass
|
|
|
|
|
+ - 变量:`AIGC_TOKEN`, `CONTENTFIND_API_AIGC_TOKEN`, `CONTENTFIND_API_READONLY_TOKEN`, `CONTENTFIND_AIGC_READONLY_PRODUCE_PLAN_ID`
|
|
|
|
|
+ - 注释:只查 produce plan detail,未创建或保存计划。
|
|
|
|
|
+- OpenRouter:pass
|
|
|
|
|
+ - 变量:`OPEN_ROUTER_API_KEY`, `OPENROUTER_API_KEY`, `OPENROUTER_BASE_URL`
|
|
|
|
|
+ - 注释:两个 key 别名已同步;只读 key metadata probe HTTP 200;未调用 chat completion 或 embeddings。
|
|
|
|
|
+- 上游 open_aigc MySQL:pass
|
|
|
|
|
+ - 变量:`OPEN_AIGC_MYSQL_*`
|
|
|
|
|
+ - 注释:本轮只读 `SELECT 1` 通过,并完成 5 张上游表 `LIMIT 1` 探测。
|
|
|
|
|
+- 上游 open_aigc PG:pass
|
|
|
|
|
+ - 变量:`OPEN_AIGC_PG_*`, `PGVECTOR_DSN`, `DATA_ENGINEERING_OPEN_AIGC_PG_DSN`
|
|
|
|
|
+ - 注释:`DATA_ENGINEERING_OPEN_AIGC_PG_DSN` 和同步后的 `OPEN_AIGC_PG_*` 均只读 `SELECT 1` 通过;Pattern 相关表 `LIMIT 1` 通过。
|
|
|
|
|
+- ODPS 表现数据:pass
|
|
|
|
|
+ - 变量:`ODPS_ACCESS_ID`, `ODPS_ACCESS_KEY`, `ODPS_ENDPOINT`, `ODPS_PROJECT`
|
|
|
|
|
+ - 注释:本轮 `SELECT 1` 通过,`video_dimension_detail_add_column`, `dwd_multi_demand_pool_di`, `feature_point_data` schema 可读。
|
|
|
|
|
+
|
|
|
|
|
+#### 待补或仅有来源配置
|
|
|
|
|
+
|
|
|
|
|
+- TikHub fallback:missing
|
|
|
|
|
+ - 变量:`TIKHUB_API_KEY`, `TIKHUB_BASE_URL`, `TIKHUB_DOUYIN_SEARCH_PATH`
|
|
|
|
|
+ - 注释:URL 和 path 已有,旧仓未找到真实 key;只能作为待补备用通道。
|
|
|
|
|
+- OSS:missing
|
|
|
|
|
+ - 变量:`ALIYUN_OSS_*`, `OSS_ACCESS_KEY_ID`, `OSS_ACCESS_KEY_SECRET`
|
|
|
|
|
+ - 注释:变量名已定位,真实 AK/SK、bucket、region、prefix、public base URL 缺失。
|
|
|
|
|
+- Feishu:source-only
|
|
|
|
|
+ - 变量:`FEISHU_APP_ID`, `FEISHU_APP_SECRET`
|
|
|
|
|
+ - 注释:旧版有来源,但不是 v2 主链路;本轮未调用。
|
|
|
|
|
+- 前端联调 API:missing
|
|
|
|
|
+ - 变量:`VITE_API_BASE_URL`, `VITE_CONTENTFIND_API_BASE_URL`
|
|
|
|
|
+ - 注释:show 当前仍是静态沙盘,尚未接真实后端。
|
|
|
|
|
+
|
|
|
|
|
+## 1. 数据源
|
|
|
|
|
+
|
|
|
|
|
+数据源阶段回答:从哪里拿原始素材、原始种子和可搜索线索。
|
|
|
|
|
+
|
|
|
|
|
+### 1.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| S1 | `content-deconstruction-supply.demand_content` | 需求输入 | 已验证 |
|
|
|
|
|
+| S2 | `open_aigc_pattern.topic_pattern_element` | Pattern / 特征词到历史 Case | 已验证 |
|
|
|
|
|
+| S3 | `content-deconstruction-supply.workflow_decode_task_result` | 直接 Case 原始素材和解构点 | 已验证 |
|
|
|
|
|
+| S4 | `topic_pattern_itemset -> workflow_decode_task_result` | Pattern Item Set 派生多个 Case | pending / 待接入 |
|
|
|
|
|
+| S5 | `open_aigc_pattern.topic_pattern_category` | Pattern 类目上下文 | 已验证 |
|
|
|
|
|
+| S6 | `content-deconstruction-supply.demand_find_author` | 历史沉淀账号 | 已验证 |
|
|
|
|
|
+| S7 | 今日热榜 `/crawler/jin_ri_re_bang/content_rank` | 热点入口 | 已验证 |
|
|
|
|
|
+| S8 | `open_aigc.post` | 上游历史内容素材 | 已验证 |
|
|
|
|
|
+| S9 | `open_aigc.post_decode_topic_point_element` | 上游选题点元素 | 已验证 |
|
|
|
|
|
+| S10 | `open_aigc.post_script_paragraph_field_element` | 上游脚本段落元素 | 已验证 |
|
|
|
|
|
+
|
|
|
|
|
+### 1.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### S1. 数据库:`content-deconstruction-supply`,表:`demand_content`
|
|
|
|
|
+
|
|
|
|
|
+- 当前输入字段:`id`, `name`, `suggestion`, `score`, `merge_leve2`, `dt`, `ext_data`
|
|
|
|
|
+- 新版必解析字段:`ext_data.evidence_pack`
|
|
|
|
|
+- 输出字段:需求词、需求解释、品类、分数、日期。
|
|
|
|
|
+- 边界:这是需求源,不是 Case 素材源;旧版只取基础字段,新版不能丢掉证据包。
|
|
|
|
|
+
|
|
|
|
|
+`ext_data.evidence_pack` 需要包含并向下游传递:
|
|
|
|
|
+
|
|
|
|
|
+| 字段 | 用途 |
|
|
|
|
|
+|---|---|
|
|
|
|
|
+| `source_kind` | 区分 Pattern、Case、聚类、历史搜索等来源 |
|
|
|
|
|
+| `pattern_source_system` | 区分 Pattern 来源系统或桥接口径 |
|
|
|
|
|
+| `case_id_type` | 说明 Case ID / post ID / channel content ID 的口径 |
|
|
|
|
|
+| `source_post_id` | 绑定原始素材 ID |
|
|
|
|
|
+| `pattern_execution_id` | 回查 Pattern 执行 |
|
|
|
|
|
+| `mining_config_id` | 回查 Pattern 挖掘配置 |
|
|
|
|
|
+| `itemset_ids` | 回查频繁项集 |
|
|
|
|
|
+| `itemset_items[]` | 回查 itemset 内的分类、元素和维度 |
|
|
|
|
|
+| `category_bindings` | 绑定分类树父节点 |
|
|
|
|
|
+| `element_bindings` | 绑定分类树元素节点 |
|
|
|
|
|
+| `matched_post_ids` | 记录 Pattern 支撑素材 |
|
|
|
|
|
+| `seed_terms` | 给 Query 使用的策略种子 |
|
|
|
|
|
+| `trace_id` | 串起上游和下游 trace |
|
|
|
|
|
+| `source_certainty` | 标记来源确定性 |
|
|
|
|
|
+| `validation_status` | 标记已验证、待接入或候选反查 |
|
|
|
|
|
+
|
|
|
|
|
+这些字段要进入数据源、Query、判断、游走、资产清洗沉淀和策略学习。目标是从某个 `case_id` 或 `post_id` 能反查到 Pattern、itemset、分类节点或元素节点。
|
|
|
|
|
+
|
|
|
|
|
+#### S2. 数据库:`open_aigc_pattern`,表:`topic_pattern_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`name`, `execution_id`, `element_type`, `category_path`
|
|
|
|
|
+- 输出字段:`post_id`, `point_type`, `point_text`, `element_type`, `name`
|
|
|
|
|
+- 边界:旧版实际按 `name` 精确查,不是严格 Pattern itemset 路径。
|
|
|
|
|
+
|
|
|
|
|
+#### S3. 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`channel_content_id`
|
|
|
|
|
+- 输出字段:`title`, `body_text`, `images`, `video_url`, `channel`, `channel_account_id`, `channel_account_name`
|
|
|
|
|
+- 解构字段:`purpose_points`, `key_points`, `inspiration_points`, `topic_fusion_result`, `merge_leve2`
|
|
|
|
|
+- 边界:Case 的最终落点;可由直接 Case 或 Pattern 派生 Case 回查。
|
|
|
|
|
+
|
|
|
|
|
+#### S4. 数据库:`open_aigc_pattern`,表:`topic_pattern_itemset` -> 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`execution_id`, `combination_type`, `item_count`, `support`, `absolute_support`, `matched_post_ids`
|
|
|
|
|
+- 输出字段:用 `matched_post_ids` 回查 `workflow_decode_task_result.channel_content_id`
|
|
|
|
|
+- 边界:DB 字段存在,旧版未作为主链路实现;不能写成已跑通。
|
|
|
|
|
+
|
|
|
|
|
+#### S5. 数据库:`open_aigc_pattern`,表:`topic_pattern_category`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`execution_id`, `id`, `path`, `source_type`
|
|
|
|
|
+- 输出字段:`name`, `description`, `category_nature`, `level`, `parent_id`, `element_count`
|
|
|
|
|
+- 边界:辅助解释 Pattern,不直接召回内容。
|
|
|
|
|
+
|
|
|
|
|
+#### S6. 数据库:`content-deconstruction-supply`,表:`demand_find_author`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`content_tags`, `channel`, `author_id`, `author_name`
|
|
|
|
|
+- 输出字段:`trace_id`, `author_name`, `author_link`, `author_id`, `elderly_ratio`, `elderly_tgi`, `is_good`, `remark`, `content_tags`, `channel`
|
|
|
|
|
+- 边界:旧版可按 `content_tags LIKE query` 找历史作者。
|
|
|
|
|
+
|
|
|
|
|
+#### S7. 接口:今日热榜 `/crawler/jin_ri_re_bang/content_rank`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`sort_type`, `cursor`
|
|
|
|
|
+- 输出字段:`source`, `jump_url`, `type`, `rankList[].title`, `rankList[].heat`, `has_more`, `next_cursor`
|
|
|
|
|
+- 边界:热点只做修饰和探索入口,不等于最终内容源。
|
|
|
|
|
+
|
|
|
|
|
+#### S8. 数据库:`open_aigc`,表:`post`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`post_id`, `platform`, `merge_leve1`, `merge_leve2`, `import_date`
|
|
|
|
|
+- 输出字段:`title`, `body_text`, `platform_account_id`, `platform_account_name`, `publish_timestamp`, `like_count`, `comment_count`, `collect_count`, `images`
|
|
|
|
|
+- 边界:数据工程上游素材表,不是旧版 ContentFindAgent 主读表。
|
|
|
|
|
+
|
|
|
|
|
+#### S9. 数据库:`open_aigc`,表:`post_decode_topic_point_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`post_id`, `topic_point_id`, `element_type`, `element_sub_type`
|
|
|
|
|
+- 输出字段:`element_name`, `element_description`, `element_source`, `element_reason`
|
|
|
|
|
+- 边界:用于理解上游元素,不替代 `workflow_decode_task_result`。
|
|
|
|
|
+
|
|
|
|
|
+#### S10. 数据库:`open_aigc`,表:`post_script_paragraph_field_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`post_id`, `paragraph_id`, `field_type`, `element_type`, `element_sub_type`
|
|
|
|
|
+- 输出字段:`element_name`, `element_description`
|
|
|
|
|
+- 边界:用于策略学习和素材理解。
|
|
|
|
|
+
|
|
|
|
|
+## 2. Query
|
|
|
|
|
+
|
|
|
|
|
+Query 阶段回答:哪些输入会被转成平台可执行搜索词或采集动作。
|
|
|
|
|
+
|
|
|
|
|
+### 2.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| Q1 | `demand_content` | 需求转 Query 输入 | 已验证 |
|
|
|
|
|
+| Q2 | `workflow_decode_task_result` | Case 解构点转 Query 输入 | 已验证 |
|
|
|
|
|
+| Q3 | `topic_pattern_element` | Pattern 词 / 元素转 Query 输入 | 已验证 |
|
|
|
|
|
+| Q4 | `topic_pattern_itemset` | Pattern 组合转 Query 输入 | pending / 待接入 |
|
|
|
|
|
+| Q5 | OpenRouter | LLM Query Builder / 判断辅助 | 只读鉴权通过 |
|
|
|
|
|
+| Q6 | `demand_find_task` | Query 执行 trace 台账 | 已验证 |
|
|
|
|
|
+
|
|
|
|
|
+### 2.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### Q1. 数据库:`content-deconstruction-supply`,表:`demand_content`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`name`, `suggestion`, `merge_leve2`, `score`, `dt`, `ext_data.evidence_pack.seed_terms`, `ext_data.evidence_pack.source_kind`
|
|
|
|
|
+- 输出字段:Query 原始需求、品类、解释、策略种子。
|
|
|
|
|
+- 边界:旧版从需求池出发;新版有证据包时优先使用 `seed_terms`,不能只把宽泛 `name` 当 Query 输入。
|
|
|
|
|
+
|
|
|
|
|
+#### Q2. 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`purpose_points`, `key_points`, `inspiration_points`, `topic_fusion_result`, `title`, `body_text`, `merge_leve2`
|
|
|
|
|
+- 输出字段:Case 策略种子、筛选点、回扣依据。
|
|
|
|
|
+- 边界:v2 以解构出的策略种子为主,不直接用账号名做 Query。
|
|
|
|
|
+
|
|
|
|
|
+#### Q3. 数据库:`open_aigc_pattern`,表:`topic_pattern_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`name`, `element_type`, `category_path`, `point_type`, `point_text`
|
|
|
|
|
+- 输出字段:Pattern 词、维度、类目路径。
|
|
|
|
|
+- 边界:旧版用 `name` 找历史 case;v2 可用于 Pattern seed。
|
|
|
|
|
+
|
|
|
|
|
+#### Q4. 数据库:`open_aigc_pattern`,表:`topic_pattern_itemset`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`combination_type`, `item_count`, `support`, `absolute_support`, `dimensions`, `matched_post_ids`
|
|
|
|
|
+- 输出字段:Pattern 组合、支持度、多 Case 命中集合。
|
|
|
|
|
+- 边界:字段存在;旧版未用它生成 Query。
|
|
|
|
|
+
|
|
|
|
|
+#### Q5. 能力:OpenRouter
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`model`, `messages`, `tools`, `system`, `max_tokens`, `temperature`
|
|
|
|
|
+- 输出字段:`content`, `tool_calls`, `prompt_tokens`, `completion_tokens`, `finish_reason`, `cost`, `usage`
|
|
|
|
|
+- 边界:本轮只做 key metadata 鉴权探测,未调用 chat completion 或 embeddings;真实生成仍需显式预算开关。
|
|
|
|
|
+
|
|
|
|
|
+#### Q6. 数据库:`content-deconstruction-supply`,表:`demand_find_task`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `demand_content_id`, `status`, `created_at`, `token_coast`
|
|
|
|
|
+- 输出字段:任务状态、成本、需求关联。
|
|
|
|
|
+- 边界:不是 Query 内容表,但承载执行追踪。
|
|
|
|
|
+
|
|
|
|
|
+## 3. Platform
|
|
|
|
|
+
|
|
|
|
|
+Platform 阶段回答:同一个 Query 在平台上用什么动作执行,返回什么字段。
|
|
|
|
|
+
|
|
|
|
|
+### 3.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| P1 | 抖音关键词搜索 `/crawler/dou_yin/keyword` | Query -> 视频候选 | 已验证 |
|
|
|
|
|
+| P2 | TikHub 搜索 fallback | 抖音搜索备用 | blocked |
|
|
|
|
|
+| P3 | 抖音账号作品 `/crawler/dou_yin/blogger` | 作者 -> 作者作品 | 已验证 |
|
|
|
|
|
+| P4 | 热点宝内容画像 | 视频画像 | 已验证 |
|
|
|
|
|
+| P5 | 热点宝账号画像 | 作者画像 | 已验证 |
|
|
|
|
|
+| P6 | `demand_find_content_result` | 平台结果沉淀字段 | 已验证 |
|
|
|
|
|
+| P7 | `demand_find_author` | 作者平台身份 | 已验证 |
|
|
|
|
|
+
|
|
|
|
|
+### 3.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### P1. 接口:抖音关键词搜索 `/crawler/dou_yin/keyword`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`keyword`, `content_type`, `sort_type`, `publish_time`, `cursor`, `account_id`
|
|
|
|
|
+- 输出字段:`aweme_id`, `desc`, `author.nickname`, `author.sec_uid`, `statistics.*`, `has_more`, `next_cursor`
|
|
|
|
|
+- 边界:实测 `content_type=视频` 成功;`综合` 口径不能直接照搬。
|
|
|
|
|
+
|
|
|
|
|
+#### P2. 接口:TikHub 搜索 fallback
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`keyword`, `cursor`, `sort_type`, `publish_time`, `filter_duration`, `content_type`, `search_id`, `backtrace`
|
|
|
|
|
+- 输出字段:`business_data[].data.aweme_info`, `next_page`, `backtrace`
|
|
|
|
|
+- 边界:缺 `TIKHUB_API_KEY`,不能写成已接入。
|
|
|
|
|
+
|
|
|
|
|
+#### P3. 接口:抖音账号作品 `/crawler/dou_yin/blogger`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`account_id`, `sort_type`, `cursor`
|
|
|
|
|
+- 输出字段:`aweme_id`, `desc`, `author.*`, `statistics.*`, `has_more`, `next_cursor`
|
|
|
|
|
+- 边界:已验证抖音作者作品;小红书作者作品仍待验证。
|
|
|
|
|
+
|
|
|
|
|
+#### P4. 接口:热点宝内容画像
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`content_id`, `need_age`, `need_gender`, `need_province`
|
|
|
|
|
+- 输出字段:年龄、性别、省份画像,`percentage`, `preference`
|
|
|
|
|
+- 边界:用于判断,不是召回接口。
|
|
|
|
|
+
|
|
|
|
|
+#### P5. 接口:热点宝账号画像
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`account_id`, `need_age`, `need_gender`, `need_province`
|
|
|
|
|
+- 输出字段:年龄、性别、省份画像,`percentage`, `preference`
|
|
|
|
|
+- 边界:可作为作者是否值得扩展的判断信号。
|
|
|
|
|
+
|
|
|
|
|
+#### P6. 数据库:`content-deconstruction-supply`,表:`demand_find_content_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`channel`, `aweme_id`, `video_url`, `author_id`, `author_name`, `author_link`
|
|
|
|
|
+- 输出字段:平台、内容 ID、作者 ID、链接。
|
|
|
|
|
+- 边界:这是结果表字段,不是平台 API。
|
|
|
|
|
+
|
|
|
|
|
+#### P7. 数据库:`content-deconstruction-supply`,表:`demand_find_author`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`channel`, `author_id`, `author_name`, `author_link`, `content_tags`
|
|
|
|
|
+- 输出字段:作者资产、内容标签、平台身份。
|
|
|
|
|
+- 边界:可作为后续作者起点。
|
|
|
|
|
+
|
|
|
|
|
+## 4. 判断
|
|
|
|
|
+
|
|
|
|
|
+判断阶段回答:内容、作者、Pattern 派生 Case 是否值得留下或继续扩展。
|
|
|
|
|
+
|
|
|
|
|
+### 4.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| J1 | 热点宝内容画像 | 50+ 内容适配 | 已验证 |
|
|
|
|
|
+| J2 | 热点宝账号画像 | 50+ 作者适配 | 已验证 |
|
|
|
|
|
+| J3 | `workflow_decode_task_result` | Case 回扣判断 | 已验证 |
|
|
|
|
|
+| J4 | `topic_pattern_element` | Pattern 回扣判断 | 已验证 |
|
|
|
|
|
+| J5 | `topic_pattern_itemset` | Pattern 来源 Case 支持度判断 | pending / 待接入 |
|
|
|
|
|
+| J6 | `demand_find_content_result` | 判断结果沉淀 | 已验证 |
|
|
|
|
|
+| J7 | `dwd_multi_demand_pool_di` | 下游需求池表现参考 | 已验证 |
|
|
|
|
|
+| J8 | `feature_point_data` | 特征表现参考 | 已验证 |
|
|
|
|
|
+
|
|
|
|
|
+### 4.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### J1. 接口:热点宝内容画像
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`content_id`, `need_age`, `need_gender`, `need_province`
|
|
|
|
|
+- 输出字段:年龄、性别、省份画像,`percentage`, `preference`
|
|
|
|
|
+- 边界:判断信号,不直接代表内容质量。
|
|
|
|
|
+
|
|
|
|
|
+#### J2. 接口:热点宝账号画像
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`account_id`, `need_age`, `need_gender`, `need_province`
|
|
|
|
|
+- 输出字段:年龄、性别、省份画像,`percentage`, `preference`
|
|
|
|
|
+- 边界:作者强不代表作品必然强。
|
|
|
|
|
+
|
|
|
|
|
+#### J3. 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`purpose_points`, `key_points`, `inspiration_points`, `topic_fusion_result`
|
|
|
|
|
+- 输出字段:目的点、关键点、灵感点、选题描述。
|
|
|
|
|
+- 边界:直接 Case 和 Pattern 派生 Case 都回到这张表判断。
|
|
|
|
|
+
|
|
|
|
|
+#### J4. 数据库:`open_aigc_pattern`,表:`topic_pattern_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`name`, `element_type`, `category_path`, `point_type`, `point_text`
|
|
|
|
|
+- 输出字段:元素词、维度、分类路径、点位文本。
|
|
|
|
|
+- 边界:旧版是弱 lineage,不是 execution-scoped 精确血缘。
|
|
|
|
|
+
|
|
|
|
|
+#### J5. 数据库:`open_aigc_pattern`,表:`topic_pattern_itemset`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`support`, `absolute_support`, `item_count`, `matched_post_ids`, `combination_type`
|
|
|
|
|
+- 输出字段:支持度、帖子集合、组合类型。
|
|
|
|
|
+- 边界:用于 Pattern -> 多 Case 判断;旧版未主链路使用。
|
|
|
|
|
+
|
|
|
|
|
+#### J6. 数据库:`content-deconstruction-supply`,表:`demand_find_content_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`digg_count`, `comment_count`, `share_count`, `portrait_source`, `elderly_ratio`, `elderly_tgi`, `recommendation_reason`, `process_trace`
|
|
|
|
|
+- 输出字段:互动、画像来源、50+ 指标、推荐理由、过程 trace。
|
|
|
|
|
+- 边界:旧版只沉淀最终结果,没有全量候选判断表。
|
|
|
|
|
+
|
|
|
|
|
+#### J7. 数据库:`ODPS`,表:`dwd_multi_demand_pool_di`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`strategy`, `demand_id`, `demand_name`, `weight`, `type`, `video_count`, `video_list`, `extend`, `dt`
|
|
|
|
|
+- 输出字段:需求池权重和视频列表。
|
|
|
|
|
+- 边界:用于策略学习/复盘,不是旧版判断实时输入。
|
|
|
|
|
+
|
|
|
|
|
+#### J8. 数据库:`ODPS`,表:`feature_point_data`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`特征点`, `总分发曝光pv`, `bn_总回流`, `质bn_rovn`, `分发视频量`, `总日回流uv`, `vid_list`, `dt`
|
|
|
|
|
+- 输出字段:特征点表现、回流、视频列表。
|
|
|
|
|
+- 边界:用于后续策略学习,不是旧版实时评分表。
|
|
|
|
|
+
|
|
|
|
|
+## 5. 游走
|
|
|
|
|
+
|
|
|
|
|
+游走阶段回答:从视频、作者、Pattern、Case 还能走到哪里。
|
|
|
|
|
+
|
|
|
|
|
+### 5.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| W1 | 抖音关键词搜索返回作者 | 视频 -> 作者 | 已验证 |
|
|
|
|
|
+| W2 | 抖音账号作品 | 作者 -> 作者作品 | 已验证 |
|
|
|
|
|
+| W3 | `demand_find_author` | 历史作者 -> 作者作品 | 已验证 |
|
|
|
|
|
+| W4 | `topic_pattern_element -> workflow_decode_task_result` | 特征词 -> 历史 Case | 已验证 |
|
|
|
|
|
+| W5 | `topic_pattern_itemset -> workflow_decode_task_result` | Pattern -> Item Set -> 多 Case | pending / 待接入 |
|
|
|
|
|
+| W6 | 相关搜索 / 标签 / 共创 / 相似作者 | 内容继续扩展 | 缺口 |
|
|
|
|
|
+| W7 | 小红书笔记/作者/话题游走 | 小红书扩展 | 缺口 |
|
|
|
|
|
+
|
|
|
|
|
+### 5.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### W1. 接口:抖音关键词搜索返回作者
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`aweme_id`, `desc`, `author.nickname`, `author.sec_uid`, `statistics.*`
|
|
|
|
|
+- 输出字段:作者昵称、`sec_uid`、互动指标。
|
|
|
|
|
+- 边界:只是进入作者判断,不代表作者自动入库。
|
|
|
|
|
+
|
|
|
|
|
+#### W2. 接口:抖音账号作品
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`account_id` / `author.sec_uid`, `sort_type`, `cursor`
|
|
|
|
|
+- 输出字段:`aweme_id`, `desc`, `author.*`, `statistics.*`, `has_more`, `next_cursor`
|
|
|
|
|
+- 边界:作品需要重新过判断。
|
|
|
|
|
+
|
|
|
|
|
+#### W3. 数据库:`content-deconstruction-supply`,表:`demand_find_author`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`author_id`, `author_link`, `content_tags`, `channel`
|
|
|
|
|
+- 输出字段:可复用作者身份、标签、画像指标。
|
|
|
|
|
+- 边界:旧版按作者资产复用;作品仍走平台接口。
|
|
|
|
|
+
|
|
|
|
|
+#### W4. 数据库:`open_aigc_pattern`,表:`topic_pattern_element` -> 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`topic_pattern_element.name`, `post_id`
|
|
|
|
|
+- 输出字段:`workflow_decode_task_result.channel_content_id`, Case 解构点。
|
|
|
|
|
+- 边界:旧版已实现的弱链路。
|
|
|
|
|
+
|
|
|
|
|
+#### W5. 数据库:`open_aigc_pattern`,表:`topic_pattern_itemset` -> 数据库:`content-deconstruction-supply`,表:`workflow_decode_task_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`matched_post_ids`, `support`, `absolute_support`
|
|
|
|
|
+- 输出字段:多个 Case 的原始素材和解构点。
|
|
|
|
|
+- 边界:新版重要路径;旧版未实现主链路。
|
|
|
|
|
+
|
|
|
|
|
+#### W6. 缺口:相关搜索 / 标签 / 共创 / 相似作者
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:暂无稳定字段。
|
|
|
|
|
+- 输出字段:暂无稳定返回。
|
|
|
|
|
+- 边界:不写成已验证接口。
|
|
|
|
|
+
|
|
|
|
|
+#### W7. 缺口:小红书笔记/作者/话题游走
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:暂无旧版实测字段。
|
|
|
|
|
+- 输出字段:暂无稳定返回。
|
|
|
|
|
+- 边界:目前只有静态 Case 字段,不等于平台接口接入。
|
|
|
|
|
+
|
|
|
|
|
+## 6. 资产清洗沉淀
|
|
|
|
|
+
|
|
|
|
|
+资产清洗沉淀阶段回答:召回和判断后的内容、作者、后处理链接沉到哪里。
|
|
|
|
|
+
|
|
|
|
|
+### 6.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| A1 | `demand_find_content_result` | 内容资产入库 | 已验证 |
|
|
|
|
|
+| A2 | `demand_find_content_result` | 内容质量和画像沉淀 | 已验证 |
|
|
|
|
|
+| A3 | `demand_find_author` | 作者资产入库 | 已验证 |
|
|
|
|
|
+| A4 | AIGC plan | 后处理计划绑定 | 源码定位 / blocked |
|
|
|
|
|
+| A5 | OSS log HTML | 过程可视化链接 | 源码定位 / blocked |
|
|
|
|
|
+| A6 | 关系资产 | 来源、query、作者、标签、游走路径关系 | 缺口 |
|
|
|
|
|
+| A7 | 搜索线索 | 有效 query、失败 query、标签、话题 | 缺口 |
|
|
|
|
|
+
|
|
|
|
|
+### 6.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### A1. 数据库:`content-deconstruction-supply`,表:`demand_find_content_result`(内容资产入库)
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `query`, `rank_no`, `video_url`, `title`, `author_name`, `author_link`, `author_id`, `aweme_id`, `demand_content_id`, `channel`, `dt`
|
|
|
|
|
+- 输出字段:内容资产、排序、来源需求、平台身份。
|
|
|
|
|
+- 新版必须补:结构化 `source_evidence`,或 sidecar/source edge artifact。
|
|
|
|
|
+- 边界:旧版沉淀最终内容,不沉淀全量候选池;只靠 `aweme_id + demand_content_id + process_trace` 不能 exact 回溯到 Pattern 和分类树节点。
|
|
|
|
|
+
|
|
|
|
|
+#### A2. 数据库:`content-deconstruction-supply`,表:`demand_find_content_result`(内容质量和画像沉淀)
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`digg_count`, `comment_count`, `share_count`, `portrait_source`, `elderly_ratio`, `elderly_tgi`, `recommendation_reason`, `process_trace`
|
|
|
|
|
+- 输出字段:互动指标、画像、推荐理由、过程记录。
|
|
|
|
|
+- 边界:`process_trace` 可复盘,但不是结构化全量 trace 表;不能替代 `source_evidence`。
|
|
|
|
|
+
|
|
|
|
|
+#### A3. 数据库:`content-deconstruction-supply`,表:`demand_find_author`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `author_name`, `author_link`, `author_id`, `elderly_ratio`, `elderly_tgi`, `is_good`, `remark`, `content_tags`, `channel`
|
|
|
|
|
+- 输出字段:作者资产、画像、标签、入选理由。
|
|
|
|
|
+- 边界:作者身份合并逻辑需新版明确。
|
|
|
|
|
+
|
|
|
|
|
+#### A4. 能力:AIGC plan
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`aweme_id`, `merge_leve2`, `produce_plan_id`, `account_id`, `sort_type`
|
|
|
|
|
+- 输出字段:`crawler_plan_id`, `produce_plan_id`, `produce_plan_name`, `publish_plan_id`
|
|
|
|
|
+- 边界:写侧副作用,开发测试不能默认触发。
|
|
|
|
|
+
|
|
|
|
|
+#### A5. 能力:OSS log HTML
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`html_path`, `object_key`, `task_id`
|
|
|
|
|
+- 输出字段:`web_html_url`
|
|
|
|
|
+- 边界:上传有副作用;旧版只保留能力边界。
|
|
|
|
|
+
|
|
|
|
|
+#### A6. 缺口:关系资产
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:暂无真实表。
|
|
|
|
|
+- 输出字段:暂无真实字段。
|
|
|
|
|
+- 边界:内容与数据源、query、作者、标签、游走路径关系都需要承载,但当前不伪造 schema。
|
|
|
|
|
+
|
|
|
|
|
+#### A7. 缺口:搜索线索
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:暂无真实表。
|
|
|
|
|
+- 输出字段:暂无真实字段。
|
|
|
|
|
+- 边界:有效 query、失败 query、标签、话题、相关搜索线索目前只在结果和 trace 中间接保留。
|
|
|
|
|
+
|
|
|
|
|
+## 7. 策略学习
|
|
|
|
|
+
|
|
|
|
|
+策略学习阶段回答:下一轮如何根据 trace、表现和概念层事实调整策略。
|
|
|
|
|
+
|
|
|
|
|
+### 7.1 索引
|
|
|
|
|
+
|
|
|
|
|
+| 编号 | 接口/表 | 用途 | 状态 |
|
|
|
|
|
+|---|---|---|---|
|
|
|
|
|
+| L1 | `demand_find_task` | 任务级 trace 和成本 | 已验证 |
|
|
|
|
|
+| L2 | `demand_task_oprate` | 调度和预算开关 | 源码定位 |
|
|
|
|
|
+| L3 | `demand_find_content_result` | 内容结果复盘 | 已验证 |
|
|
|
|
|
+| L4 | `demand_find_author` | 作者资产复盘 | 已验证 |
|
|
|
|
|
+| L5 | `open_aigc.global_category` | 长期概念分类 | 已验证 |
|
|
|
|
|
+| L6 | `open_aigc.global_element` | 长期概念元素 | 已验证 |
|
|
|
|
|
+| L7 | `open_aigc.element_classification_mapping` | 元素归类映射 | 已验证 |
|
|
|
|
|
+| L8 | `open_aigc.public.pattern_mining_execution` | Pattern V2 执行快照 | 已验证 |
|
|
|
|
|
+| L9 | `open_aigc.public.pattern_mining_element` | Pattern V2 元素快照 | 已验证 |
|
|
|
|
|
+| L10 | `open_aigc.public.pattern_itemset` | Pattern V2 itemset | 已验证 |
|
|
|
|
|
+| L11 | `open_aigc.public.pattern_itemset_item` | Pattern V2 itemset 成员 | 已验证 |
|
|
|
|
|
+| L12 | `loghubods.video_dimension_detail_add_column` | 视频表现回看 | 已验证 |
|
|
|
|
|
+
|
|
|
|
|
+### 7.2 详情
|
|
|
|
|
+
|
|
|
|
|
+#### L1. 数据库:`content-deconstruction-supply`,表:`demand_find_task`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `demand_content_id`, `status`, `created_at`, `token_coast`
|
|
|
|
|
+- 输出字段:执行状态、成本、需求关联。
|
|
|
|
|
+- 边界:只能看任务级结果,不能还原全量候选过程。
|
|
|
|
|
+
|
|
|
|
|
+#### L2. 数据库:`content-deconstruction-supply`,表:`demand_task_oprate`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`is_open`, `day_limit_coast`, `update_time`
|
|
|
|
|
+- 输出字段:是否开启、日成本限制。
|
|
|
|
|
+- 边界:策略控制数据,不是学习结论。
|
|
|
|
|
+
|
|
|
|
|
+#### L3. 数据库:`content-deconstruction-supply`,表:`demand_find_content_result`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `query`, `rank_no`, `channel`, `aweme_id`, `process_trace`, `crawler_plan_id`, `produce_plan_id`, `publish_plan_id`, `web_html_url`, `source_evidence`
|
|
|
|
|
+- 输出字段:成功路径、平台、计划绑定、过程记录、来源证据。
|
|
|
|
|
+- 边界:没有失败候选和淘汰原因结构化表;如果没有 `source_evidence` 或 source edge artifact,策略学习只能看到结果,不能 exact 回溯到 Pattern、Case 和分类树节点。
|
|
|
|
|
+
|
|
|
|
|
+#### L4. 数据库:`content-deconstruction-supply`,表:`demand_find_author`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`trace_id`, `author_id`, `author_name`, `content_tags`, `elderly_ratio`, `elderly_tgi`, `is_good`, `channel`
|
|
|
|
|
+- 输出字段:作者表现和可复用标签。
|
|
|
|
|
+- 边界:后续需要与作品表现关联。
|
|
|
|
|
+
|
|
|
|
|
+#### L5. 数据库:`open_aigc`,表:`global_category`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`stable_id`, `name`, `source_type`, `path`, `parent_stable_id`, `category_nature`, `level`
|
|
|
|
|
+- 输出字段:分类树和稳定分类 ID。
|
|
|
|
|
+- 边界:上游概念层,非旧版实时输入。
|
|
|
|
|
+
|
|
|
|
|
+#### L6. 数据库:`open_aigc`,表:`global_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`id`, `name`, `source_type`, `belong_category_stable_id`, `element_sub_type`, `occurrence_count`
|
|
|
|
|
+- 输出字段:元素词和出现次数。
|
|
|
|
|
+- 边界:用于长期策略学习和 Pattern 生成。
|
|
|
|
|
+
|
|
|
|
|
+#### L7. 数据库:`open_aigc`,表:`element_classification_mapping`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`source_table`, `source_element_id`, `post_id`, `element_name`, `element_type`, `global_element_id`, `global_category_stable_id`, `classification_path`
|
|
|
|
|
+- 输出字段:元素到全局类目的映射。
|
|
|
|
|
+- 边界:用于理解上游元素如何进入 Pattern。
|
|
|
|
|
+
|
|
|
|
|
+#### L8. 数据库:`open_aigc PG`,表:`public.pattern_mining_execution`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`id`, `snapshot_date`, `is_current`, `status`, `post_count`, `category_count`, `element_count`, `topic_itemset_count`, `cross_itemset_count`, `start_time`, `end_time`, `error_message`
|
|
|
|
|
+- 输出字段:Pattern 执行状态和规模。
|
|
|
|
|
+- 边界:PG Pattern V2 到 MySQL `topic_pattern_*` 仍是高风险 bridge。
|
|
|
|
|
+
|
|
|
|
|
+#### L9. 数据库:`open_aigc PG`,表:`public.pattern_mining_element`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`execution_id`, `post_id`, `source_table`, `source_element_id`, `element_type`, `element_sub_type`, `name`, `category_path`, `point_type`, `point_text`
|
|
|
|
|
+- 输出字段:元素快照和类目路径。
|
|
|
|
|
+- 边界:可辅助学习,不直接替代 MySQL `topic_pattern_element`。
|
|
|
|
|
+
|
|
|
|
|
+#### L10. 数据库:`open_aigc PG`,表:`public.pattern_itemset`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`execution_id`, `combination_type`, `item_count`, `support`, `absolute_support`, `dimensions`, `is_cross_point`, `is_cross_layer`
|
|
|
|
|
+- 输出字段:Pattern 组合、支持度、维度。
|
|
|
|
|
+- 边界:不能直接写成 DemandAgent / ContentFindAgent 已读。
|
|
|
|
|
+
|
|
|
|
|
+#### L11. 数据库:`open_aigc PG`,表:`public.pattern_itemset_item`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`itemset_id`, `layer`, `point_type`, `dimension`, `category_id`, `category_path`, `element_name`, `element_id`, `post_count`
|
|
|
|
|
+- 输出字段:itemset 中的元素项。
|
|
|
|
|
+- 边界:用于分析 Pattern 词和组合效果。
|
|
|
|
|
+
|
|
|
|
|
+#### L12. 数据库:`loghubods`,表:`video_dimension_detail_add_column`
|
|
|
|
|
+
|
|
|
|
|
+- 输入字段:`视频id`, `视频地址`, `标题`, `一级品类`, `二级品类`, `上传渠道`, `dt`
|
|
|
|
|
+- 表现字段:`当日分发曝光pv`, `当日分发回流uv`, `rov_t0`, `流量池曝光`, `流量池播放`, `流量池回流`, `推荐曝光`, `推荐播放`, `推荐回流`, `总日回流uv`
|
|
|
|
|
+- 输出字段:表现、曝光、播放、回流、标签。
|
|
|
|
|
+- 边界:宽表只列策略学习关键字段。
|
|
|
|
|
+
|
|
|
|
|
+## 8. 缺口清单
|
|
|
|
|
+
|
|
|
|
|
+本节吸收原环境缺口报告的缺口项。凡是没有真实表、真实 key、真实接口或只读验证证据的能力,都不能在产品或技术文档里写成“已接入”。
|
|
|
|
|
+
|
|
|
|
|
+### 8.1 P0 必须补齐
|
|
|
|
|
+
|
|
|
|
|
+#### 新版候选池承载
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:全量候选池表或 API。
|
|
|
|
|
+- 业务用途:保存所有召回的视频、笔记、作者,包括入池、观察、淘汰和最终入选。
|
|
|
|
|
+- 当前状态:未发现真实表。
|
|
|
|
|
+- 中文注释:旧版只保存最终结果,无法复盘“没选中的候选”。
|
|
|
|
|
+
|
|
|
|
|
+#### 判断/淘汰日志承载
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:规则包执行记录、硬门槛、软评分、淘汰原因、停止原因表或 API。
|
|
|
|
|
+- 业务用途:记录每个候选为什么继续、入池、观察、停止或淘汰。
|
|
|
|
|
+- 当前状态:未发现真实表。
|
|
|
|
|
+- 中文注释:`process_trace` 只能粗略复盘,不能替代结构化规则日志。
|
|
|
|
|
+
|
|
|
|
|
+#### 来源关系承载
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:数据源、seed、query、平台内容、作者、标签、游走路径关系表或 API;或先用 sidecar/source edge artifact 承载。
|
|
|
|
|
+- 业务用途:记录内容从哪里来、经过哪条路径来、由哪个规则放行,并从 `case_id/post_id` 回溯到分类树节点。
|
|
|
|
|
+- 当前状态:未发现真实表。
|
|
|
|
|
+- 中文注释:没有关系承载,策略学习无法按来源和路径归因;最终只剩 `aweme_id + demand_content_id + process_trace` 时,无法 exact 追到 Pattern 和分类树。
|
|
|
|
|
+
|
|
|
|
|
+#### 搜索线索承载
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:有效 query、失败 query、标签、话题、相关搜索线索表或 API。
|
|
|
|
|
+- 业务用途:保存下一轮可继续尝试的搜索线索,以及失败线索。
|
|
|
|
|
+- 当前状态:未发现真实表。
|
|
|
|
|
+- 中文注释:旧版只在结果和 trace 里间接留下 query,不够做系统学习。
|
|
|
|
|
+
|
|
|
|
|
+#### show 联调后端
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:`VITE_API_BASE_URL`, `VITE_CONTENTFIND_API_BASE_URL`
|
|
|
|
|
+- 业务用途:让 show 从静态沙盘切到真实后端接口。
|
|
|
|
|
+- 当前状态:missing
|
|
|
|
|
+- 中文注释:当前前端只能展示策略和静态样例,不能跑真实链路。
|
|
|
|
|
+
|
|
|
|
|
+### 8.2 P1 生产增强
|
|
|
|
|
+
|
|
|
|
|
+#### TikHub fallback
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:`TIKHUB_API_KEY`
|
|
|
|
|
+- 业务用途:Crawapi 抖音搜索异常、限流或不可用时做备用召回。
|
|
|
|
|
+- 当前状态:missing
|
|
|
|
|
+- 中文注释:URL 已定位,缺 key;不能写成已接入。
|
|
|
|
|
+
|
|
|
|
|
+#### OSS 过程链接
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:`ALIYUN_OSS_ACCESS_KEY_ID`, `ALIYUN_OSS_ACCESS_KEY_SECRET`, `ALIYUN_OSS_BUCKET`, `ALIYUN_OSS_REGION`, `ALIYUN_OSS_PREFIX`, `ALIYUN_OSS_PUBLIC_BASE_URL`
|
|
|
|
|
+- 业务用途:保存任务日志、HTML 报告、截图、trace 文件的可访问链接。
|
|
|
|
|
+- 当前状态:missing
|
|
|
|
|
+- 中文注释:旧版有上传能力线索,但当前缺真实 OSS 配置。
|
|
|
|
|
+
|
|
|
|
|
+#### 外部调度源
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:`SCHEDULE_QUERY_API`, `SCHEDULE_QUERY_API_KEY`
|
|
|
|
|
+- 业务用途:从外部系统接收任务、定时需求或批量触发策略运行。
|
|
|
|
|
+- 当前状态:missing
|
|
|
|
|
+- 中文注释:当前没有真实调度入口。
|
|
|
|
|
+
|
|
|
|
|
+#### AIGC token 治理
|
|
|
|
|
+
|
|
|
|
|
+- 需要补:将旧版 fallback token 换成密钥平台托管值。
|
|
|
|
|
+- 业务用途:避免旧代码硬编码 token,保证后处理计划查询/绑定安全可维护。
|
|
|
|
|
+- 当前状态:source-only
|
|
|
|
|
+- 中文注释:这是安全治理,不是新增业务能力。
|
|
|
|
|
+
|
|
|
|
|
+### 8.3 P2 产品待验证
|
|
|
|
|
+
|
|
|
|
|
+#### 小红书笔记搜索、作者主页、作者笔记、话题标签接口
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:无旧版实测接口。
|
|
|
|
|
+- 中文注释:产品可以设计小红书路径,但技术文档不能写成已接入。
|
|
|
|
|
+
|
|
|
|
|
+#### 快手、B站、视频号、票圈平台适配接口
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:无旧版实测接口。
|
|
|
|
|
+- 中文注释:这些平台暂时不能复用抖音字段口径。
|
|
|
|
|
+
|
|
|
|
|
+#### 相关搜索、视频 tag、共创作者、相似作者、相似内容接口
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:无稳定字段或实测。
|
|
|
|
|
+- 中文注释:可以作为游走策略方向,但必须标为待验证。
|
|
|
|
|
+
|
|
|
|
|
+#### 养号推荐流账号、cookie/session、设备、代理/风控配置
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:无真实接入配置。
|
|
|
|
|
+- 中文注释:养号是产品意图源,不能伪装成已有旧版 DB/API backing。
|
|
|
|
|
+
|
|
|
|
|
+#### 策略实验、规则包版本、Prompt 版本、预算回写表/API
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:无真实承载。
|
|
|
|
|
+- 中文注释:策略学习需要这些承载,但当前没有真实表或 API。
|
|
|
|
|
+
|
|
|
|
|
+#### Pattern -> Item Set -> 多 Case
|
|
|
|
|
+
|
|
|
|
|
+- 当前状态:DB 字段存在,旧版未主链路实现。
|
|
|
|
|
+- 中文注释:标 `pending / 待接入`;可作为新版重要来源,但不能写成已跑通。
|