已渲染的评估 prompt sample（template + 一条帖子 → 字面产物）

源: form_A.json#xhs_69e223a700000000230267c8

query: 下载模型权重教程

工具: python eval_one_sample.py execute eval_prompt_sample.md

多模态图片 URL 内嵌在 USER 块的帖子 JSON 的 post.images 字段;execute 自动提取。

改 template / rubric / 换帖子后,重新跑 render 生成新 sample。

SYSTEM

你是内容采集管线里的知识质量评估器，专门服务于「AI 图片 / 视频制作」领域的知识采集管线。严格按要求对单条帖子做知识质量评估。只输出一个 JSON 对象，不要任何解释性文字，不要 markdown 代码块。

评分时须始终牢记：所有「成品」「效果」「用例」均指 AI 生成的图片或视频；帖子的核心价值必须体现在视觉内容的生产过程上。纯文字输出、代码生成、论文写作、生活记录等场景不属于本管线范围，相关维度直接给低分。

USER

【检索词】 下载模型权重教程 判断相关性时：这帖是否真的在回答这个检索词的意图。

【知识类型分类】

类型	定义	例
`工序`	端到端多步流程，做出成品	"用 AI 做营销海报：注册→生成→导出"
`步骤`	单个原子操作怎么实现	"抠图怎么留发丝"
`工具`	某具体工具怎么用	"nanobanana 参数与能力边界"

一帖可多标签，各类型分别评分。流程：先分类 → 再套对应维度打分。

制作相关内容定义 制作相关的内容，必须同时满足三个条件：

有明确的视觉意图创作者在这篇内容里，目标是产出图或视频
AI 是生产工具图/视频是通过 AI 使用工具生成或处理的，不是拍摄、手绘、截图
存在可迁移的制作知识制作知识：内容传递了「怎么做出这张图/视频」的知识核心判断：这个知识点是在影响图/视频最终长什么样吗？是 → 属于制作知识，包括但不限于： prompt 写法与优化、反推提示词、风格控制模型/Lora 选配与权重调节、采样器与参数设置图生图、局部重绘、ControlNet 条件控制视频帧间控制、运镜、时序一致性处理否 → 不属于制作知识，包括：让工具能跑起来的一切操作（下载、安装、部署、训练、微调）纯粹的结果展示而没有任何方法

【输出 schema（按此结构输出，字段不得增减/改名）】

{
  "知识类型": ["工序 | 步骤 | 工具（可多个）"],

  "制作相关性": {
    "得分": "整数 1-3。3=与内容制作直接相关且包含图片、视频制作的教学内容（工序/工具/能力知识）；2=与内容制作边缘相关但缺乏知识（如纯提问、只炫成品）；1=与内容制作无关（医疗/财务/科研/纯生活记录等）。",
    "理由": "中文。该分数的具体判定依据"
  },

  "评分": {
    "通用": {
      "相关性": {
        "得分": "1-5。内容是否落在『制作』范围、是否真的回答检索词意图",
        "理由": "中文"
      },
      "成品质量": {
        "得分": "1-5。展示出的制作成品表现力/最终效果，是否存在 AI 感，质量能否发到社媒平台",
        "理由": "中文"
      },
      "可信度": {
        "得分": "1-5。综合：内容自洽（非标题党/结果与方法匹配/图文一致）· 热度（点赞/收藏/评论量）· 评论正负反馈",
        "理由": "中文"
      },
      "具体用例": {
        "得分": "1 或 5。是否给出明确具体的用例。有→5，无→1",
        "理由": "中文"
      }
    },

    "工序": {
      "完整性": {
        "得分": "1-5。流程是否端到端齐全、有没有断档",
        "理由": "中文"
      },
      "步骤结构": {
        "得分": "1-5。步骤边界/顺序/每步输入输出与依赖是否清晰，能否拆成 DAG",
        "理由": "中文"
      },
      "步骤可复现": {
        "得分": "1-5。每步是否点名具体工具+参数+prompt，能否照做",
        "理由": "中文"
      }
    },

    "步骤": {
      "能力定义": {
        "得分": "1-5。原子操作是什么、input→output 是否清楚",
        "理由": "中文"
      },
      "实现深度": {
        "得分": "1-5。是否真讲 HOW（参数/技法/设置），非一句带过",
        "理由": "中文"
      },
      "边界失败": {
        "得分": "1-5。是否说明何时 work/不 work、踩坑、排错、评估标准",
        "理由": "中文"
      },
      "通用性": {
        "得分": "1-5。是工具无关的通法，还是绑死某一工具",
        "理由": "中文"
      }
    },

    "工具": {
      "能力覆盖": {
        "得分": "1-5。是否说清工具能做/不能做什么",
        "理由": "中文"
      },
      "有效对比": {
        "得分": "1-5。是否给出与其他工具的有效对比（非泛泛罗列功能）",
        "理由": "中文"
      },
      "参数具体": {
        "得分": "1-5。是否给出具体参数/选项/输入输出格式",
        "理由": "中文"
      },
      "实操示例": {
        "得分": "1-5。是否有真实 input→output 示例及所用参数",
        "理由": "中文"
      },
      "版本限制": {
        "得分": "1-5。是否说明版本号/额度/质量/合规限制/时效",
        "理由": "中文"
      }
    }
  },

  "判定理由": "中文。综合所有维度的整体判断（这帖整体是否值得保留，缺啥）"
}

【待评估帖子（原始 JSON）】 { "case_id": "zhihu_371644077_2025687156509750269", "platform": "zhihu", "channel_content_id": "371644077_2025687156509750269", "source_url": "https://www.zhihu.com/question/371644077/answer/2025687156509750269", "post": { "channel_content_id": "371644077_2025687156509750269", "title": "有没有下载Hugging Face模型的国内站点？", "content_type": "answer", "body_text": "适用场景\n：服务器无法访问\nhttp://http://huggingface.con、下载大文件频繁断连、单线程速度龟速，想用最稳最快的方式把模型权重和数据集拉下来。n一、背景：为什么 HuggingFace 在国内这么难用？\n对于国内的 AI 开发者和竞赛选手来说，HuggingFace 几乎是绕不开的资源站——无论是预训练权重、数据集还是 tokenizer 配置，十有八九都托管在上面。然而由于众所周知的网络原因，直接访问\nhuggingface.co\n往往要么超时，要么速度慢到令人崩溃。\n更糟糕的是，当你在云 GPU 实例（比如 AutoDL、恒源云）上训练模型时，服务器本身也无法出境访问，\nwget\n挂着跑了几个小时，结果下载到一半直接断开——什么都没留下。\n本文以\nAGIBot World Challenge @ ICRA 2026\n参赛过程中下载模型权重和训练数据集为实际案例，系统整理一套\n国内环境下 HuggingFace 大文件下载的最优实践\n。\n二、核心思路：使用 HF-Mirror 镜像站\nhf-mirror.com\n是目前国内最稳定的 HuggingFace 镜像站之一，使用方式极其简单——将原始 URL 中的\nhuggingface.co\n替换为\nhf-mirror.com\n即可，其余路径完全一致。\n原始地址（无法访问）：\nhttps://huggingface.co/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\n镜像地址（国内可用）：\nhttps://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\n规则通用，数据集也适用：\n# 原始\nhttps://huggingface.co/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\n\n# 镜像\nhttps://hf-mirror.com/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\n三、方案一：wget（简单但有局限）\nwget\n是最基础的下载工具，配合\n-c\n参数可以实现断点续传，适合网络稳定、文件不太大的场景。\n基本用法\n# 下载模型权重\nwget -c \\n -O /coding/AgiBotWorldChallenge/weights/evac/EnerV_AC_deepspeed_v0.1.pt \\n \"https://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt"nn# 下载 CLIP 权重\nwget -c \\n -O /coding/AgiBotWorldChallenge/weights/clip/open_clip_pytorch_model.bin \\n \"https://hf-mirror.com/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin"n参数说明n参数n作用n-cn断点续传，中断后可接着下n-O <路径>\n指定输出文件路径和文件名\nwget 的致命弱点\n单线程\n：无论网速多好，wget 只用一个连接，大文件速度天花板极低\n重试机制弱\n：默认遇到连接失败会放弃，需要手动加\n--tries=0\n才能无限重试\n没有并发\n：10 GB 的数据集，单线程跑一晚上都是常事\n对于 GB 级别的大文件，强烈建议跳过 wget，直接用下面的 aria2。\n四、方案二：aria2（推荐，多线程碾压级提速）\naria2\n是一款支持多协议、多线程的命令行下载工具，\n16 线程并发\n相比 wget 单线程，实测速度可以提升 5~10 倍甚至更多，且原生支持断点续传和自动重试。\n安装\n# Ubuntu / Debian\nsudo apt-get update && sudo apt-get install -y aria2\n\n# 或者用 conda（不需要 sudo，更适合云实例）\nconda install -c conda-forge aria2 -y\n完整下载命令（以训练数据集为例）\naria2c -c \\n -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/data/WorldModel/archives \\n -o train.tar.gz \\n \"https://hf-mirror.com/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz"n参数详解n参数n含义n推荐值n-cn断点续传n必加n-x 16\n最大连接数（线程数）\n16（网络好时）/ 8（不稳定时）\n-s 16\n将文件分成 N 段并行下载\n与 -x 保持一致\n-k 1M\n每段最小分片大小\n1M\n--file-allocation=none\n禁止预分配磁盘空间\n必加，否则启动极慢\n--max-tries=0\n无限重试，直到成功\n大文件必加\n--retry-wait=5\n失败后等待 5 秒再重试\n避免频繁触发限速\n-d <目录>\n下载目录\n按需设置\n-o <文件名>\n输出文件名\n按需设置\n下载模型权重的完整示例\n# 下载 EnerVerse-AC 权重\naria2c -c -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/weights/evac \\n -o EnerV_AC_deepspeed_v0.1.pt \\n \"https://hf-mirror.com/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt"nn# 下载 CLIP 权重\naria2c -c -x 16 -s 16 -k 1M \\n --file-allocation=none \\n --max-tries=0 --retry-wait=5 \\n -d /coding/AgiBotWorldChallenge/weights/clip \\n -o open_clip_pytorch_model.bin \\n \"https://hf-mirror.com/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin"n五、进阶技巧n5.1 使用 tmux/screen 防止会话断开\n在云服务器或远程 SSH 环境中，一旦终端断开，下载进程就会被杀掉。哪怕 aria2 有断点续传，重新连上之后还得重新执行命令——非常麻烦。\n解决方案：在 tmux 或 screen 里跑下载命令。\n# 新建 tmux 会话\ntmux new -s download\n\n# 在 tmux 内执行 aria2 命令\naria2c -c -x 16 -s 16 ... \"https://hf-mirror.com/..."nn# Ctrl+B, D 可以安全脱离会话（进程继续在后台跑）\n# 需要查看进度时：\ntmux attach -t download\n用\nscreen\n也一样：\nscreen -S download\n# 执行下载命令后按 Ctrl+A, D 脱离\nscreen -r download # 重新连接\n这一步是长时间大文件下载的\n必备操作\n，别省。\n5.2 配置代理加速\n如果你的服务器或本地机器有 HTTP/HTTPS 代理，可以在下载前临时设置环境变量，所有命令行工具（wget、aria2、curl 等）都会自动走代理：\n# 临时设置，仅对当前 shell 会话生效\nexport https_proxy=http://你的代理IP:端口\nexport http_proxy=http://你的代理IP:端口\n\n# 验证是否生效\ncurl -I https://huggingface.conn# 下载完成后取消\nunset https_proxy http_proxy\n⚠️ 注意：云 GPU 实例（AutoDL 等）一般不允许出境流量，即使设置代理也可能无效。此时应优先使用 hf-mirror 镜像站。\n5.3 并发数的选择策略\n并发数并不是越高越好，服务器端可能会对单 IP 的并发请求做限速甚至封禁。\n场景\n推荐并发数\n网络稳定、服务器带宽充足\n-x 16 -s 16\n偶发断连，速度不稳定\n-x 8 -s 8\n频繁被限速或报错\n-x 4 -s 4\n带宽本身就是瓶颈\n任意值，瓶颈不在并发\n5.4 下载前先确认目标路径存在\naria2 不会自动创建目录，如果\n-d\n指定的目录不存在会直接报错。养成下载前先建目录的习惯：\nmkdir -p /coding/AgiBotWorldChallenge/weights/evac\nmkdir -p /coding/AgiBotWorldChallenge/weights/clip\nmkdir -p /coding/AgiBotWorldChallenge/data/WorldModel/archives\n六、wget vs aria2 对比总结\n维度\nwget\naria2\n安装复杂度\n系统自带，零配置\n需要额外安装\n下载速度\n单线程，慢\n多线程，快 5~10 倍\n断点续传\n支持（-c）\n支持（-c）\n自动重试\n有限（需手动配置）\n支持无限重试\n适用文件大小\n< 500 MB\n任意大小，GB 级首选\n推荐程度\n⭐⭐\n⭐⭐⭐⭐⭐\n七、完整快速参考脚本\n把以下内容保存为\ndownload_weights.sh\n，按需修改路径和 URL 后直接运行：\n#!/bin/bash\nset -e\n\n# ========== 配置区 ==========\nBASE_DIR=\"/coding/AgiBotWorldChallenge\"\nWEIGHTS_EVAC=\"$BASE_DIR/weights/evac\"\nWEIGHTS_CLIP=\"$BASE_DIR/weights/clip\"\nDATA_DIR=\"$BASE_DIR/data/WorldModel/archives\"\n\nHF_MIRROR=\"https://hf-mirror.com"nARIA2_ARGS="-c -x 16 -s 16 -k 1M --file-allocation=none --max-tries=0 --retry-wait=5\"\n# ============================\n\necho \"[1/3] 创建目录...\"\nmkdir -p \"$WEIGHTS_EVAC\" \"$WEIGHTS_CLIP\" \"$DATA_DIR\"\n\necho \"[2/3] 下载模型权重...\"\naria2c $ARIA2_ARGS \\n -d \"$WEIGHTS_EVAC\" -o \"EnerV_AC_deepspeed_v0.1.pt\" \\n \"$HF_MIRROR/agibot-world/EnerVerse-AC/resolve/main/EnerV_AC_deepspeed_v0.1.pt\"\n\naria2c $ARIA2_ARGS \\n -d \"$WEIGHTS_CLIP\" -o \"open_clip_pytorch_model.bin\" \\n \"$HF_MIRROR/laion/CLIP-ViT-H-14-laion2B-s32B-b79K/resolve/main/open_clip_pytorch_model.bin\"\n\necho \"[3/3] 下载训练数据集...\"\naria2c $ARIA2_ARGS \\n -d \"$DATA_DIR\" -o \"train.tar.gz\" \\n \"$HF_MIRROR/datasets/agibot-world/AgiBotWorldChallenge-2026/resolve/main/WorldModel/train.tar.gz\"\n\necho \"✅ 全部下载完成！\"\n运行方式：\nchmod +x download_weights.sh\n# 建议在 tmux 内运行\ntmux new -s download\nbash download_weights.sh\n八、小结\n步骤\n操作\n1\n将 URL 中的\nhttp://http://huggingface.con替换为nhttp://http://hf-mirror.comn2n安装 aria2（apt install aria2 或 conda install aria2）\n3\n使用 aria2c -c -x 16 -s 16 ... 多线程下载\n4\n用 tmux 或 screen 包裹命令，防止断会话\n5\n网络不稳时调低并发数至 -x 8 或 -x 4\n一套流程跑通后，再大的模型权重和数据集都可以稳稳地拉下来，专注在真正重要的训练和调参上。\n作者备注\n：本文记录于参加 AGIBot World Challenge @ ICRA 2026 过程中，实际在云 GPU 实例（RTX 4090）上验证可用。如有更好的方案欢迎评论区交流。", "like_count": 2, "publish_timestamp": "2026-04-09 21:30:53", "images": [], "videos": [], "channel": "zhihu", "link": "https://www.zhihu.com/question/371644077/answer/2025687156509750269", "_quality_score": 87.0, "_quality_grade": "A" }, "comments": [], "found_by_queries": [ "下载模型权重教程" ], "images_sent": 0 } 【注意】

每个维度都要 得分 + 理由（中文 1-2 句简述：基于帖子哪段内容 / 哪张图给的这个分）
评分 里 通用 必填；只填命中 知识类型 的类型块，未命中的省略
只输出 JSON，不要其他内容

eval_prompt_sample-mod.md 16 KB 履歴 Raw