更新时间:2026-06-04
本文只记录旧版代码、旧版接口审计、DB-first schema inventory、ContentFindAgent 数据工程 run 和 subagent 交叉验证过的数据接口。
| 状态 | 含义 |
|---|---|
| 已验证 | 已有 DB / API 只读验证或旧版实测结果 |
| 源码定位 | 旧版代码能定位到接口或写入逻辑,但本次未实连 |
| blocked | 因 token、只读条件或副作用限制未实连 |
| pending / 待接入 | DB 字段存在,产品应接入,但旧版 ContentFindAgent 未作为主链路实现 |
| source-only | 已有配置来源或源码来源,但本轮未作为主链路实连验证 |
| missing | 变量、key、表或 API 未找到可用真实值 |
| 缺口 | 没有真实表、真实接口或稳定字段,不能写成已接入 |
不把 show 静态样例、小红书搜索、共创作者、相似作者、候选池、淘汰原因表写成已验证接口。
每个阶段都按“短索引 + 详情块”组织:
本节吸收原环境缺口报告的确认结果,只记录变量名、能力和验证状态,不记录密码、token、AK/SK 或完整 DSN。
.env 结构:pass
.env139 个变量,无重复 key;本地私有文件,不进入代码仓库。os.getenv(...)52 个 getenv 变量都已在 .env 中覆盖。DB_*, CONTENT_SUPPLY_DB_*, CONTENTFIND_DB_*demand_content, workflow_decode_task_result, demand_find_author, demand_find_content_result, demand_find_task, demand_task_oprate 均只读通过。OPEN_AIGC_PATTERN_DB_*, PATTERN_GLOBAL_DB_*, CONTENTFIND_PATTERN_DB_*topic_pattern_element, topic_pattern_itemset, topic_pattern_category 均只读通过。CONTENTFIND_API_CRAWAPI_BASE_URL, CONTENTFIND_DOUYIN_*, CONTENTFIND_HOT_TOPIC_PATHAIGC_TOKEN, CONTENTFIND_API_AIGC_TOKEN, CONTENTFIND_API_READONLY_TOKEN, CONTENTFIND_AIGC_READONLY_PRODUCE_PLAN_IDOPEN_ROUTER_API_KEY, OPENROUTER_API_KEY, OPENROUTER_BASE_URLOPEN_AIGC_MYSQL_*SELECT 1 通过,并完成 5 张上游表 LIMIT 1 探测。OPEN_AIGC_PG_*, PGVECTOR_DSN, DATA_ENGINEERING_OPEN_AIGC_PG_DSNDATA_ENGINEERING_OPEN_AIGC_PG_DSN 和同步后的 OPEN_AIGC_PG_* 均只读 SELECT 1 通过;Pattern 相关表 LIMIT 1 通过。ODPS_ACCESS_ID, ODPS_ACCESS_KEY, ODPS_ENDPOINT, ODPS_PROJECTSELECT 1 通过,video_dimension_detail_add_column, dwd_multi_demand_pool_di, feature_point_data schema 可读。TIKHUB_API_KEY, TIKHUB_BASE_URL, TIKHUB_DOUYIN_SEARCH_PATHALIYUN_OSS_*, OSS_ACCESS_KEY_ID, OSS_ACCESS_KEY_SECRETFEISHU_APP_ID, FEISHU_APP_SECRETVITE_API_BASE_URL, VITE_CONTENTFIND_API_BASE_URL数据源阶段回答:从哪里拿原始素材、原始种子和可搜索线索。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| S1 | content-deconstruction-supply.demand_content |
需求输入 | 已验证 |
| S2 | open_aigc_pattern.topic_pattern_element |
Pattern / 特征词到历史 Case | 已验证 |
| S3 | content-deconstruction-supply.workflow_decode_task_result |
直接 Case 原始素材和解构点 | 已验证 |
| S4 | topic_pattern_itemset -> workflow_decode_task_result |
Pattern Item Set 派生多个 Case | pending / 待接入 |
| S5 | open_aigc_pattern.topic_pattern_category |
Pattern 类目上下文 | 已验证 |
| S6 | content-deconstruction-supply.demand_find_author |
历史沉淀账号 | 已验证 |
| S7 | 今日热榜 /crawler/jin_ri_re_bang/content_rank |
热点入口 | 已验证 |
| S8 | open_aigc.post |
上游历史内容素材 | 已验证 |
| S9 | open_aigc.post_decode_topic_point_element |
上游选题点元素 | 已验证 |
| S10 | open_aigc.post_script_paragraph_field_element |
上游脚本段落元素 | 已验证 |
content-deconstruction-supply,表:demand_contentid, name, suggestion, score, merge_leve2, dt, ext_dataext_data.evidence_packext_data.evidence_pack 需要包含并向下游传递:
| 字段 | 用途 |
|---|---|
source_kind |
区分 Pattern、Case、聚类、历史搜索等来源 |
pattern_source_system |
区分 Pattern 来源系统或桥接口径 |
case_id_type |
说明 Case ID / post ID / channel content ID 的口径 |
source_post_id |
绑定原始素材 ID |
pattern_execution_id |
回查 Pattern 执行 |
mining_config_id |
回查 Pattern 挖掘配置 |
itemset_ids |
回查频繁项集 |
itemset_items[] |
回查 itemset 内的分类、元素和维度 |
category_bindings |
绑定分类树父节点 |
element_bindings |
绑定分类树元素节点 |
matched_post_ids |
记录 Pattern 支撑素材 |
seed_terms |
给 Query 使用的策略种子 |
trace_id |
串起上游和下游 trace |
source_certainty |
标记来源确定性 |
validation_status |
标记已验证、待接入或候选反查 |
这些字段要进入数据源、Query、判断、游走、资产清洗沉淀和策略学习。目标是从某个 case_id 或 post_id 能反查到 Pattern、itemset、分类节点或元素节点。
open_aigc_pattern,表:topic_pattern_elementname, execution_id, element_type, category_pathpost_id, point_type, point_text, element_type, namename 精确查,不是严格 Pattern itemset 路径。content-deconstruction-supply,表:workflow_decode_task_resultchannel_content_idtitle, body_text, images, video_url, channel, channel_account_id, channel_account_namepurpose_points, key_points, inspiration_points, topic_fusion_result, merge_leve2open_aigc_pattern,表:topic_pattern_itemset -> 数据库:content-deconstruction-supply,表:workflow_decode_task_resultexecution_id, combination_type, item_count, support, absolute_support, matched_post_idsmatched_post_ids 回查 workflow_decode_task_result.channel_content_idopen_aigc_pattern,表:topic_pattern_categoryexecution_id, id, path, source_typename, description, category_nature, level, parent_id, element_countcontent-deconstruction-supply,表:demand_find_authorcontent_tags, channel, author_id, author_nametrace_id, author_name, author_link, author_id, elderly_ratio, elderly_tgi, is_good, remark, content_tags, channelcontent_tags LIKE query 找历史作者。/crawler/jin_ri_re_bang/content_ranksort_type, cursorsource, jump_url, type, rankList[].title, rankList[].heat, has_more, next_cursoropen_aigc,表:postpost_id, platform, merge_leve1, merge_leve2, import_datetitle, body_text, platform_account_id, platform_account_name, publish_timestamp, like_count, comment_count, collect_count, imagesopen_aigc,表:post_decode_topic_point_elementpost_id, topic_point_id, element_type, element_sub_typeelement_name, element_description, element_source, element_reasonworkflow_decode_task_result。open_aigc,表:post_script_paragraph_field_elementpost_id, paragraph_id, field_type, element_type, element_sub_typeelement_name, element_descriptionQuery 阶段回答:哪些输入会被转成平台可执行搜索词或采集动作。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| Q1 | demand_content |
需求转 Query 输入 | 已验证 |
| Q2 | workflow_decode_task_result |
Case 解构点转 Query 输入 | 已验证 |
| Q3 | topic_pattern_element |
Pattern 词 / 元素转 Query 输入 | 已验证 |
| Q4 | topic_pattern_itemset |
Pattern 组合转 Query 输入 | pending / 待接入 |
| Q5 | OpenRouter | LLM Query Builder / 判断辅助 | 只读鉴权通过 |
| Q6 | demand_find_task |
Query 执行 trace 台账 | 已验证 |
content-deconstruction-supply,表:demand_contentname, suggestion, merge_leve2, score, dt, ext_data.evidence_pack.seed_terms, ext_data.evidence_pack.source_kindseed_terms,不能只把宽泛 name 当 Query 输入。content-deconstruction-supply,表:workflow_decode_task_resultpurpose_points, key_points, inspiration_points, topic_fusion_result, title, body_text, merge_leve2open_aigc_pattern,表:topic_pattern_elementname, element_type, category_path, point_type, point_textname 找历史 case;v2 可用于 Pattern seed。open_aigc_pattern,表:topic_pattern_itemsetcombination_type, item_count, support, absolute_support, dimensions, matched_post_idsmodel, messages, tools, system, max_tokens, temperaturecontent, tool_calls, prompt_tokens, completion_tokens, finish_reason, cost, usagecontent-deconstruction-supply,表:demand_find_tasktrace_id, demand_content_id, status, created_at, token_coastPlatform 阶段回答:同一个 Query 在平台上用什么动作执行,返回什么字段。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| P1 | 抖音关键词搜索 /crawler/dou_yin/keyword |
Query -> 视频候选 | 已验证 |
| P2 | TikHub 搜索 fallback | 抖音搜索备用 | blocked |
| P3 | 抖音账号作品 /crawler/dou_yin/blogger |
作者 -> 作者作品 | 已验证 |
| P4 | 热点宝内容画像 | 视频画像 | 已验证 |
| P5 | 热点宝账号画像 | 作者画像 | 已验证 |
| P6 | demand_find_content_result |
平台结果沉淀字段 | 已验证 |
| P7 | demand_find_author |
作者平台身份 | 已验证 |
/crawler/dou_yin/keywordkeyword, content_type, sort_type, publish_time, cursor, account_idaweme_id, desc, author.nickname, author.sec_uid, statistics.*, has_more, next_cursorcontent_type=视频 成功;综合 口径不能直接照搬。keyword, cursor, sort_type, publish_time, filter_duration, content_type, search_id, backtracebusiness_data[].data.aweme_info, next_page, backtraceTIKHUB_API_KEY,不能写成已接入。/crawler/dou_yin/bloggeraccount_id, sort_type, cursoraweme_id, desc, author.*, statistics.*, has_more, next_cursorcontent_id, need_age, need_gender, need_provincepercentage, preferenceaccount_id, need_age, need_gender, need_provincepercentage, preferencecontent-deconstruction-supply,表:demand_find_content_resultchannel, aweme_id, video_url, author_id, author_name, author_linkcontent-deconstruction-supply,表:demand_find_authorchannel, author_id, author_name, author_link, content_tags判断阶段回答:内容、作者、Pattern 派生 Case 是否值得留下或继续扩展。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| J1 | 热点宝内容画像 | 50+ 内容适配 | 已验证 |
| J2 | 热点宝账号画像 | 50+ 作者适配 | 已验证 |
| J3 | workflow_decode_task_result |
Case 回扣判断 | 已验证 |
| J4 | topic_pattern_element |
Pattern 回扣判断 | 已验证 |
| J5 | topic_pattern_itemset |
Pattern 来源 Case 支持度判断 | pending / 待接入 |
| J6 | demand_find_content_result |
判断结果沉淀 | 已验证 |
| J7 | dwd_multi_demand_pool_di |
下游需求池表现参考 | 已验证 |
| J8 | feature_point_data |
特征表现参考 | 已验证 |
content_id, need_age, need_gender, need_provincepercentage, preferenceaccount_id, need_age, need_gender, need_provincepercentage, preferencecontent-deconstruction-supply,表:workflow_decode_task_resultpurpose_points, key_points, inspiration_points, topic_fusion_resultopen_aigc_pattern,表:topic_pattern_elementname, element_type, category_path, point_type, point_textopen_aigc_pattern,表:topic_pattern_itemsetsupport, absolute_support, item_count, matched_post_ids, combination_typecontent-deconstruction-supply,表:demand_find_content_resultdigg_count, comment_count, share_count, portrait_source, elderly_ratio, elderly_tgi, recommendation_reason, process_traceODPS,表:dwd_multi_demand_pool_distrategy, demand_id, demand_name, weight, type, video_count, video_list, extend, dtODPS,表:feature_point_data特征点, 总分发曝光pv, bn_总回流, 质bn_rovn, 分发视频量, 总日回流uv, vid_list, dt游走阶段回答:从视频、作者、Pattern、Case 还能走到哪里。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| W1 | 抖音关键词搜索返回作者 | 视频 -> 作者 | 已验证 |
| W2 | 抖音账号作品 | 作者 -> 作者作品 | 已验证 |
| W3 | demand_find_author |
历史作者 -> 作者作品 | 已验证 |
| W4 | topic_pattern_element -> workflow_decode_task_result |
特征词 -> 历史 Case | 已验证 |
| W5 | topic_pattern_itemset -> workflow_decode_task_result |
Pattern -> Item Set -> 多 Case | pending / 待接入 |
| W6 | 相关搜索 / 标签 / 共创 / 相似作者 | 内容继续扩展 | 缺口 |
| W7 | 小红书笔记/作者/话题游走 | 小红书扩展 | 缺口 |
aweme_id, desc, author.nickname, author.sec_uid, statistics.*sec_uid、互动指标。account_id / author.sec_uid, sort_type, cursoraweme_id, desc, author.*, statistics.*, has_more, next_cursorcontent-deconstruction-supply,表:demand_find_authorauthor_id, author_link, content_tags, channelopen_aigc_pattern,表:topic_pattern_element -> 数据库:content-deconstruction-supply,表:workflow_decode_task_resulttopic_pattern_element.name, post_idworkflow_decode_task_result.channel_content_id, Case 解构点。open_aigc_pattern,表:topic_pattern_itemset -> 数据库:content-deconstruction-supply,表:workflow_decode_task_resultmatched_post_ids, support, absolute_support资产清洗沉淀阶段回答:召回和判断后的内容、作者、后处理链接沉到哪里。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| A1 | demand_find_content_result |
内容资产入库 | 已验证 |
| A2 | demand_find_content_result |
内容质量和画像沉淀 | 已验证 |
| A3 | demand_find_author |
作者资产入库 | 已验证 |
| A4 | AIGC plan | 后处理计划绑定 | 源码定位 / blocked |
| A5 | OSS log HTML | 过程可视化链接 | 源码定位 / blocked |
| A6 | 关系资产 | 来源、query、作者、标签、游走路径关系 | 缺口 |
| A7 | 搜索线索 | 有效 query、失败 query、标签、话题 | 缺口 |
content-deconstruction-supply,表:demand_find_content_result(内容资产入库)trace_id, query, rank_no, video_url, title, author_name, author_link, author_id, aweme_id, demand_content_id, channel, dtsource_evidence,或 sidecar/source edge artifact。aweme_id + demand_content_id + process_trace 不能 exact 回溯到 Pattern 和分类树节点。content-deconstruction-supply,表:demand_find_content_result(内容质量和画像沉淀)digg_count, comment_count, share_count, portrait_source, elderly_ratio, elderly_tgi, recommendation_reason, process_traceprocess_trace 可复盘,但不是结构化全量 trace 表;不能替代 source_evidence。content-deconstruction-supply,表:demand_find_authortrace_id, author_name, author_link, author_id, elderly_ratio, elderly_tgi, is_good, remark, content_tags, channelaweme_id, merge_leve2, produce_plan_id, account_id, sort_typecrawler_plan_id, produce_plan_id, produce_plan_name, publish_plan_idhtml_path, object_key, task_idweb_html_url策略学习阶段回答:下一轮如何根据 trace、表现和概念层事实调整策略。
| 编号 | 接口/表 | 用途 | 状态 |
|---|---|---|---|
| L1 | demand_find_task |
任务级 trace 和成本 | 已验证 |
| L2 | demand_task_oprate |
调度和预算开关 | 源码定位 |
| L3 | demand_find_content_result |
内容结果复盘 | 已验证 |
| L4 | demand_find_author |
作者资产复盘 | 已验证 |
| L5 | open_aigc.global_category |
长期概念分类 | 已验证 |
| L6 | open_aigc.global_element |
长期概念元素 | 已验证 |
| L7 | open_aigc.element_classification_mapping |
元素归类映射 | 已验证 |
| L8 | open_aigc.public.pattern_mining_execution |
Pattern V2 执行快照 | 已验证 |
| L9 | open_aigc.public.pattern_mining_element |
Pattern V2 元素快照 | 已验证 |
| L10 | open_aigc.public.pattern_itemset |
Pattern V2 itemset | 已验证 |
| L11 | open_aigc.public.pattern_itemset_item |
Pattern V2 itemset 成员 | 已验证 |
| L12 | loghubods.video_dimension_detail_add_column |
视频表现回看 | 已验证 |
content-deconstruction-supply,表:demand_find_tasktrace_id, demand_content_id, status, created_at, token_coastcontent-deconstruction-supply,表:demand_task_oprateis_open, day_limit_coast, update_timecontent-deconstruction-supply,表:demand_find_content_resulttrace_id, query, rank_no, channel, aweme_id, process_trace, crawler_plan_id, produce_plan_id, publish_plan_id, web_html_url, source_evidencesource_evidence 或 source edge artifact,策略学习只能看到结果,不能 exact 回溯到 Pattern、Case 和分类树节点。content-deconstruction-supply,表:demand_find_authortrace_id, author_id, author_name, content_tags, elderly_ratio, elderly_tgi, is_good, channelopen_aigc,表:global_categorystable_id, name, source_type, path, parent_stable_id, category_nature, levelopen_aigc,表:global_elementid, name, source_type, belong_category_stable_id, element_sub_type, occurrence_countopen_aigc,表:element_classification_mappingsource_table, source_element_id, post_id, element_name, element_type, global_element_id, global_category_stable_id, classification_pathopen_aigc PG,表:public.pattern_mining_executionid, snapshot_date, is_current, status, post_count, category_count, element_count, topic_itemset_count, cross_itemset_count, start_time, end_time, error_messagetopic_pattern_* 仍是高风险 bridge。open_aigc PG,表:public.pattern_mining_elementexecution_id, post_id, source_table, source_element_id, element_type, element_sub_type, name, category_path, point_type, point_texttopic_pattern_element。open_aigc PG,表:public.pattern_itemsetexecution_id, combination_type, item_count, support, absolute_support, dimensions, is_cross_point, is_cross_layeropen_aigc PG,表:public.pattern_itemset_itemitemset_id, layer, point_type, dimension, category_id, category_path, element_name, element_id, post_countloghubods,表:video_dimension_detail_add_column视频id, 视频地址, 标题, 一级品类, 二级品类, 上传渠道, dt当日分发曝光pv, 当日分发回流uv, rov_t0, 流量池曝光, 流量池播放, 流量池回流, 推荐曝光, 推荐播放, 推荐回流, 总日回流uv本节吸收原环境缺口报告的缺口项。凡是没有真实表、真实 key、真实接口或只读验证证据的能力,都不能在产品或技术文档里写成“已接入”。
process_trace 只能粗略复盘,不能替代结构化规则日志。case_id/post_id 回溯到分类树节点。aweme_id + demand_content_id + process_trace 时,无法 exact 追到 Pattern 和分类树。VITE_API_BASE_URL, VITE_CONTENTFIND_API_BASE_URLTIKHUB_API_KEYALIYUN_OSS_ACCESS_KEY_ID, ALIYUN_OSS_ACCESS_KEY_SECRET, ALIYUN_OSS_BUCKET, ALIYUN_OSS_REGION, ALIYUN_OSS_PREFIX, ALIYUN_OSS_PUBLIC_BASE_URLSCHEDULE_QUERY_API, SCHEDULE_QUERY_API_KEYpending / 待接入;可作为新版重要来源,但不能写成已跑通。