eval_prompt_sample-mod.md 16 KB

已渲染的评估 prompt sample(template + 一条帖子 → 字面产物)

源: form_A.json#xhs_69e223a700000000230267c8

query: 下载 模型权重 教程

工具: python eval_one_sample.py execute eval_prompt_sample.md

多模态图片 URL 内嵌在 USER 块的帖子 JSON 的 post.images 字段;execute 自动提取。

改 template / rubric / 换帖子后,重新跑 render 生成新 sample。

SYSTEM

你是内容采集管线里的知识质量评估器,专门服务于「AI 图片 / 视频制作」领域的知识采集管线。严格按要求对单条帖子做知识质量评估。只输出一个 JSON 对象,不要任何解释性文字,不要 markdown 代码块。

评分时须始终牢记:所有「成品」「效果」「用例」均指 AI 生成的图片或视频;帖子的核心价值必须体现在视觉内容的生产过程上。纯文字输出、代码生成、论文写作、生活记录等场景不属于本管线范围,相关维度直接给低分。


USER

【检索词】 下载 模型权重 教程 判断相关性时:这帖是否真的在回答这个检索词的意图。


【知识类型分类】

类型 定义
工序 端到端多步流程,做出成品 "用 AI 做营销海报:注册→生成→导出"
步骤 单个原子操作怎么实现 "抠图怎么留发丝"
工具 某具体工具怎么用 "nanobanana 参数与能力边界"

一帖可多标签,各类型分别评分。流程:先分类 → 再套对应维度打分。

制作相关内容定义 制作相关的内容,必须同时满足三个条件:

  1. 有明确的视觉意图 创作者在这篇内容里,目标是产出图或视频

  2. AI 是生产工具 图/视频是通过 AI 使用工具生成或处理的,不是拍摄、手绘、截图

  3. 存在可迁移的制作知识 制作知识:内容传递了「怎么做出这张图/视频」的知识 核心判断:这个知识点是在影响图/视频最终长什么样吗? 是 → 属于制作知识,包括但不限于: prompt 写法与优化、反推提示词、风格控制 模型/Lora 选配与权重调节、采样器与参数设置 图生图、局部重绘、ControlNet 条件控制 视频帧间控制、运镜、时序一致性处理 否 → 不属于制作知识,包括: 让工具能跑起来的一切操作(下载、安装、部署、训练、微调) 纯粹的结果展示而没有任何方法


【输出 schema(按此结构输出,字段不得增减/改名)】

{
  "知识类型": ["工序 | 步骤 | 工具(可多个)"],

  "制作相关性": {
    "得分": "整数 1-3。3=与内容制作直接相关且包含图片、视频制作的教学内容(工序/工具/能力知识);2=与内容制作边缘相关但缺乏知识(如纯提问、只炫成品);1=与内容制作无关(医疗/财务/科研/纯生活记录等)。",
    "理由": "中文。该分数的具体判定依据"
  },

  "评分": {
    "通用": {
      "相关性": {
        "得分": "1-5。内容是否落在『制作』范围、是否真的回答检索词意图",
        "理由": "中文"
      },
      "成品质量": {
        "得分": "1-5。展示出的制作成品表现力/最终效果,是否存在 AI 感,质量能否发到社媒平台",
        "理由": "中文"
      },
      "可信度": {
        "得分": "1-5。综合:内容自洽(非标题党/结果与方法匹配/图文一致)· 热度(点赞/收藏/评论量)· 评论正负反馈",
        "理由": "中文"
      },
      "具体用例": {
        "得分": "1 或 5。是否给出明确具体的用例。有→5,无→1",
        "理由": "中文"
      }
    },

    "工序": {
      "完整性": {
        "得分": "1-5。流程是否端到端齐全、有没有断档",
        "理由": "中文"
      },
      "步骤结构": {
        "得分": "1-5。步骤边界/顺序/每步输入输出与依赖是否清晰,能否拆成 DAG",
        "理由": "中文"
      },
      "步骤可复现": {
        "得分": "1-5。每步是否点名具体工具+参数+prompt,能否照做",
        "理由": "中文"
      }
    },

    "步骤": {
      "能力定义": {
        "得分": "1-5。原子操作是什么、input→output 是否清楚",
        "理由": "中文"
      },
      "实现深度": {
        "得分": "1-5。是否真讲 HOW(参数/技法/设置),非一句带过",
        "理由": "中文"
      },
      "边界失败": {
        "得分": "1-5。是否说明何时 work/不 work、踩坑、排错、评估标准",
        "理由": "中文"
      },
      "通用性": {
        "得分": "1-5。是工具无关的通法,还是绑死某一工具",
        "理由": "中文"
      }
    },

    "工具": {
      "能力覆盖": {
        "得分": "1-5。是否说清工具能做/不能做什么",
        "理由": "中文"
      },
      "有效对比": {
        "得分": "1-5。是否给出与其他工具的有效对比(非泛泛罗列功能)",
        "理由": "中文"
      },
      "参数具体": {
        "得分": "1-5。是否给出具体参数/选项/输入输出格式",
        "理由": "中文"
      },
      "实操示例": {
        "得分": "1-5。是否有真实 input→output 示例及所用参数",
        "理由": "中文"
      },
      "版本限制": {
        "得分": "1-5。是否说明版本号/额度/质量/合规限制/时效",
        "理由": "中文"
      }
    }
  },

  "判定理由": "中文。综合所有维度的整体判断(这帖整体是否值得保留,缺啥)"
}

【待评估帖子(原始 JSON)】 { "case_id": "zhihu_371644077_2025687156509750269", "platform": "zhihu", "channel_content_id": "371644077_2025687156509750269", "source_url": "https://www.zhihu.com/question/371644077/answer/2025687156509750269", "post": { "channel_content_id": "371644077_2025687156509750269", "title": "有没有下载Hugging Face模型的国内站点?", "content_type": "answer", "body_text": "适用场景\n:服务器无法访问\nhttp://http://huggingface.con、下载大文件频繁断连、单线程速度龟速,想用最稳最快的方式把模型权重和数据集拉下来。n一、背景:为什么 HuggingFace 在国内这么难用?\n对于国内的 AI 开发者和竞赛选手来说,HuggingFace 几乎是绕不开的资源站——无论是预训练权重、数据集还是 tokenizer 配置,十有八九都托管在上面。然而由于众所周知的网络原因,直接访问\nhuggingface.co\n往往要么超时,要么速度慢到令人崩溃。\n更糟糕的是,当你在云 GPU 实例(比如 AutoDL、恒源云)上训练模型时,服务器本身也无法出境访问,\nwget\n挂着跑了几个小时,结果下载到一半直接断开——什么都没留下。\n本文以\nAGIBot World Challenge @ ICRA 2026\n参赛过程中下载模型权重和训练数据集为实际案例,系统整理一套\n国内环境下 HuggingFace 大文件下载的最优实践\n。\n二、核心思路:使用 HF-Mirror 镜像站\nhf-mirror.com\n是目前国内最稳定的 HuggingFace 镜像站之一,使用方式极其简单——将原始 URL 中的\nhuggingface.co\n替换为\nhf-mirror.com\n即可,其余路径完全一致。\n原始地址(无法访问):\nhttps://huggingface.co/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\n镜像地址(国内可用):\nhttps://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\n规则通用,数据集也适用:\n# 原始\nhttps://huggingface.co/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\n\n# 镜像\nhttps://hf-mirror.com/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\n三、方案一:wget(简单但有局限)\nwget\n是最基础的下载工具,配合\n-c\n参数可以实现断点续传,适合网络稳定、文件不太大的场景。\n基本用法\n# 下载模型权重\nwget -c \\n -O /coding/AgiBotWorldChallenge/weights/evac/EnerV_AC_deepspeed_v0.1.pt \\n \"https://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt"nn# 下载 CLIP 权重\nwget -c \\n -O /coding/AgiBotWorldChallenge/weights/clip/open_clip_pytorch_model.bin \\n \"https://hf-mirror.com/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin"n参数说明n参数n作用n-cn断点续传,中断后可接着下n-O <路径>\n指定输出文件路径和文件名\nwget 的致命弱点\n单线程\n:无论网速多好,wget 只用一个连接,大文件速度天花板极低\n重试机制弱\n:默认遇到连接失败会放弃,需要手动加\n--tries=0\n才能无限重试\n没有并发\n:10 GB 的数据集,单线程跑一晚上都是常事\n对于 GB 级别的大文件,强烈建议跳过 wget,直接用下面的 aria2。\n四、方案二:aria2(推荐,多线程碾压级提速)\naria2\n是一款支持多协议、多线程的命令行下载工具,\n16 线程并发\n相比 wget 单线程,实测速度可以提升 5~10 倍甚至更多,且原生支持断点续传和自动重试。\n安装\n# Ubuntu / Debian\nsudo apt-get update && sudo apt-get install -y aria2\n\n# 或者用 conda(不需要 sudo,更适合云实例)\nconda install -c conda-forge aria2 -y\n完整下载命令(以训练数据集为例)\naria2c -c \\n -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/data/WorldModel/archives \\n -o train.tar.gz \\n \"https://hf-mirror.com/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz"n参数详解n参数n含义n推荐值n-cn断点续传n必加n-x 16\n最大连接数(线程数)\n16(网络好时)/ 8(不稳定时)\n-s 16\n将文件分成 N 段并行下载\n与 -x 保持一致\n-k 1M\n每段最小分片大小\n1M\n--file-allocation=none\n禁止预分配磁盘空间\n必加,否则启动极慢\n--max-tries=0\n无限重试,直到成功\n大文件必加\n--retry-wait=5\n失败后等待 5 秒再重试\n避免频繁触发限速\n-d <目录>\n下载目录\n按需设置\n-o <文件名>\n输出文件名\n按需设置\n下载模型权重的完整示例\n# 下载 EnerVerse-AC 权重\naria2c -c -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/weights/evac \\n -o EnerV_AC_deepspeed_v0.1.pt \\n \"https://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt"nn# 下载 CLIP 权重\naria2c -c -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/weights/clip \\n -o open_clip_pytorch_model.bin \\n \"https://hf-mirror.com/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin"n五、进阶技巧n5.1 使用 tmux/screen 防止会话断开\n在云服务器或远程 SSH 环境中,一旦终端断开,下载进程就会被杀掉。哪怕 aria2 有断点续传,重新连上之后还得重新执行命令——非常麻烦。\n解决方案:在 tmux 或 screen 里跑下载命令。\n# 新建 tmux 会话\ntmux new -s download\n\n# 在 tmux 内执行 aria2 命令\naria2c -c -x 16 -s 16 ... \"https://hf-mirror.com/..."nn# Ctrl+B, D 可以安全脱离会话(进程继续在后台跑)\n# 需要查看进度时:\ntmux attach -t download\n用\nscreen\n也一样:\nscreen -S download\n# 执行下载命令后按 Ctrl+A, D 脱离\nscreen -r download # 重新连接\n这一步是长时间大文件下载的\n必备操作\n,别省。\n5.2 配置代理加速\n如果你的服务器或本地机器有 HTTP/HTTPS 代理,可以在下载前临时设置环境变量,所有命令行工具(wget、aria2、curl 等)都会自动走代理:\n# 临时设置,仅对当前 shell 会话生效\nexport https_proxy=http://你的代理IP:端口\nexport http_proxy=http://你的代理IP:端口\n\n# 验证是否生效\ncurl -I https://huggingface.conn# 下载完成后取消\nunset https_proxy http_proxy\n⚠️ 注意:云 GPU 实例(AutoDL 等)一般不允许出境流量,即使设置代理也可能无效。此时应优先使用 hf-mirror 镜像站。\n5.3 并发数的选择策略\n并发数并不是越高越好,服务器端可能会对单 IP 的并发请求做限速甚至封禁。\n场景\n推荐并发数\n网络稳定、服务器带宽充足\n-x 16 -s 16\n偶发断连,速度不稳定\n-x 8 -s 8\n频繁被限速或报错\n-x 4 -s 4\n带宽本身就是瓶颈\n任意值,瓶颈不在并发\n5.4 下载前先确认目标路径存在\naria2 不会自动创建目录,如果\n-d\n指定的目录不存在会直接报错。养成下载前先建目录的习惯:\nmkdir -p /coding/AgiBotWorldChallenge/weights/evac\nmkdir -p /coding/AgiBotWorldChallenge/weights/clip\nmkdir -p /coding/AgiBotWorldChallenge/data/WorldModel/archives\n六、wget vs aria2 对比总结\n维度\nwget\naria2\n安装复杂度\n系统自带,零配置\n需要额外安装\n下载速度\n单线程,慢\n多线程,快 5~10 倍\n断点续传\n支持(-c)\n支持(-c)\n自动重试\n有限(需手动配置)\n支持无限重试\n适用文件大小\n< 500 MB\n任意大小,GB 级首选\n推荐程度\n⭐⭐\n⭐⭐⭐⭐⭐\n七、完整快速参考脚本\n把以下内容保存为\ndownload_weights.sh\n,按需修改路径和 URL 后直接运行:\n#!/bin/bash\nset -e\n\n# ========== 配置区 ==========\nBASE_DIR=\"/coding/AgiBotWorldChallenge\"\nWEIGHTS_EVAC=\"$BASE_DIR/weights/evac\"\nWEIGHTS_CLIP=\"$BASE_DIR/weights/clip\"\nDATA_DIR=\"$BASE_DIR/data/WorldModel/archives\"\n\nHF_MIRROR=\"https://hf-mirror.com"nARIA2_ARGS="-c -x 16 -s 16 -k 1M --file-allocation=none --max-tries=0 --retry-wait=5\"\n# ============================\n\necho \"[1/3] 创建目录...\"\nmkdir -p \"$WEIGHTS_EVAC\" \"$WEIGHTS_CLIP\" \"$DATA_DIR\"\n\necho \"[2/3] 下载模型权重...\"\naria2c $ARIA2_ARGS \\n -d \"$WEIGHTS_EVAC\" -o \"EnerV_AC_deepspeed_v0.1.pt\" \\n \"$HF_MIRROR/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\"\n\naria2c $ARIA2_ARGS \\n -d \"$WEIGHTS_CLIP\" -o \"open_clip_pytorch_model.bin\" \\n \"$HF_MIRROR/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin\"\n\necho \"[3/3] 下载训练数据集...\"\naria2c $ARIA2_ARGS \\n -d \"$DATA_DIR\" -o \"train.tar.gz\" \\n \"$HF_MIRROR/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\"\n\necho \"✅ 全部下载完成!\"\n运行方式:\nchmod +x download_weights.sh\n# 建议在 tmux 内运行\ntmux new -s download\nbash download_weights.sh\n八、小结\n步骤\n操作\n1\n将 URL 中的\nhttp://http://huggingface.con替换为nhttp://http://hf-mirror.comn2n安装 aria2(apt install aria2 或 conda install aria2)\n3\n使用 aria2c -c -x 16 -s 16 ... 多线程下载\n4\n用 tmux 或 screen 包裹命令,防止断会话\n5\n网络不稳时调低并发数至 -x 8 或 -x 4\n一套流程跑通后,再大的模型权重和数据集都可以稳稳地拉下来,专注在真正重要的训练和调参上。\n作者备注\n:本文记录于参加 AGIBot World Challenge @ ICRA 2026 过程中,实际在云 GPU 实例(RTX 4090)上验证可用。如有更好的方案欢迎评论区交流。", "like_count": 2, "publish_timestamp": "2026-04-09 21:30:53", "images": [], "videos": [], "channel": "zhihu", "link": "https://www.zhihu.com/question/371644077/answer/2025687156509750269", "_quality_score": 87.0, "_quality_grade": "A" }, "comments": [], "found_by_queries": [ "下载 模型权重 教程" ], "images_sent": 0 } 【注意】

  • 每个维度都要 得分 + 理由(中文 1-2 句简述:基于帖子哪段内容 / 哪张图给的这个分)
  • 评分通用 必填;只填命中 知识类型 的类型块,未命中的省略
  • 只输出 JSON,不要其他内容