howard
/
Agent


			
				
					
						
						
							12345678910111213141516171819202122
							[
  {
    "tool": "ComfyUI",
    "response": "# 原子能力清单（更新后）\n\n## 本轮分析\n\n从 ComfyUI 的使用介绍和 5 个实际用例中，识别出以下面向需求的原子能力：\n\n1. **文本到图像生成**（Text-to-Image）：核心基础能力\n2. **角色多视图生成**：保持角色一致性的多角度输出\n3. **图像风格迁移/LoRA 风格控制**：通过 LoRA 切换不同风格\n4. **姿态/结构控制生成**：通过 ControlNet 控制图像结构\n5. **图像一致性保持**：IP-Adapter 保持主体特征\n6. **人脸修复与增强**：CodeFormer 等修复人脸\n7. **图像细节增强与高清放大**：Tile 模型、高清修复\n8. **图像上色**：黑白图像自动上色\n9. **批量图像生成**：批处理循环生成多张图\n10. **AI 动画生成**：AnimateDiff 生成帧序列\n11. **帧插值**：RIFE 等提升动画流畅度\n12. **工作流自动化/API 调用**：程序化批量调用\n\n由于是第一次提取，全部为新增能力，无融合项。\n\n---\n\n## 新增能力\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**: ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成\n- **来源依据**: 使用介绍第 2.2 节「文生图工作流搭建（6 步）」详细描述了完整的文生图节点链路；案例 5「建筑效果图快速出图」中以文生图为基础结合 LoRA 生成效果图\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构，而非仅依赖文字描述\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」中使用 ControlNet 控制角色姿态生成三视图；案例 5「建筑效果图快速出图」中使用线稿作为 ControlNet 输入生成建筑效果图；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**: ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: 案例 2「电商产品图批量生成」中使用 IP-Adapter 保持产品一致性，在多个背景模板下生成展示图；使用介绍 4.5 节列出 IPAdapter 为必备自定义节点\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格（如现代、古典、工业、动漫等）\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA，批量切换生成不同风格效果图；使用介绍第 2.3 节应用场景表中提及 LoRA 为核心功能之一\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题，使人脸清晰自然\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点（Impact-Pack 自定义节点包中的 FaceDetailer）+ 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」中使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack（含人脸修复）和 ReActor（换脸）为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节，而非简单插值放大\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile 模型（Tile ControlNet）+ VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」中使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」中使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点；4.6 节提及 Tiled VAE 用于大图处理\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（如皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」中使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化（背景/参数/种子）；自动保存并按规则命名，无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验、社交媒体内容批量制作\n- **来源依据**: 案例 2「电商产品图批量生成」中通过批处理节点循环生成 100+ 张产品图，效率提升 10 倍；使用介绍 4.2 节提及「使用 batch_size 而非多次运行」的性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使静态图像内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成、社交媒体动态内容\n- **来源依据**: 案例 4「AI 动画短片制作」中使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性，批量生成后合成视频；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」中使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将 ComfyUI 的图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到 CI/CD 或业务系统中\n- **实现方式**: ComfyUI REST API（POST /prompt 提交任务 + GET /history/{id} 查询结果）+ Python/任意语言客户端\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线、定时任务触发生成\n- **来源依据**: 使用介绍第 3.4 节「API 接口」详细描述了 REST API 端点和 Python 调用示例；第 2.3 节应用场景表中列出「生产级应用：批量处理、团队协作、CI/CD 集成」\n\n---\n\n### CAP-012: 图像局部重绘（Inpainting）\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**: ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise < 1）+ VAEDecode 工作流\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复\n- **来源依据**: 使用介绍第 1.3 节功能介绍中明确列出「局部重绘」为核心功能之一；第 2.3 节应用场景「图像生成与编辑：摄影后期处理」隐含此能力；技术规格 3.1 节输入参数中提及 denoise 参数控制重绘强度\n\n---\n\n## 融合能力\n\n本轮为首次提取，无已有能力，无融合项。\n\n---\n\n## 发现的能力组合\n\n### 组合 1：游戏角色多视图生成流水线\n**CAP-001（文本到图像生成）+ CAP-002（结构/姿态控制生成）+ CAP-003（图像主体一致性保持）**\n= 完成「游戏角色三视图生成」（案例 1）\n> 先用文生图生成角色概念图，再用 ControlNet 控制正/侧/背面姿态，用 IP-Adapter 保持角色外观一致性\n\n---\n\n### 组合 2：电商产品图批量生产流水线\n**CAP-003（图像主体一致性保持）+ CAP-008（批量图像生成）+ CAP-011（工作流自动化与 API 集成）**\n= 完成「电商产品多背景批量出图」（案例 2）\n> IP-Adapter 保持产品外观，批处理节点循环多个背景模板，API 集成到电商系统自动触发\n\n---\n\n### 组合 3：老照片修复与上色流水线\n**CAP-005（人脸修复与增强）+ CAP-006（图像细节增强与高清放大）+ CAP-007（图像上色）**\n= 完成「老照片修复上色」（案例 3）\n> CodeFormer 修复人脸 → Tile 模型增强细节 → DeOldify 上色\n\n---\n\n### 组合 4：AI 动画短片制作流水线\n**CAP-009（AI 动画帧序列生成）+ CAP-002（结构/姿态控制生成）+ CAP-010（动画帧插值）**\n= 完成「AI 动画短片制作」（案例 4）\n> AnimateDiff 生成基础帧序列，ControlNet 保持角色一致性，RIFE 帧插值提升流畅度，合成视频\n\n---\n\n### 组合 5：建筑效果图快速多风格出图流水线\n**CAP-002（结构/姿态控制生成）+ CAP-004（风格切换与 LoRA 风格控制）+ CAP-006（图像细节增强与高清放大）+ CAP-008（批量图像生成）**\n= 完成「建筑效果图快速出图」（案例 5）\n> 线稿 ControlNet 控制建筑结构，批量切换风格 LoRA，高清修复提升细节，批处理批量输出\n\n---\n\n## 完整能力清单\n\n| 能力 ID | 能力名称 | 核心需求 |\n|---------|----------|----------|\n| CAP-001 | 文本到图像生成 | 从文字描述生成图像 |\n| CAP-002 | 结构/姿态控制生成 | 以结构图约束生成图像的空间结构 |\n| CAP-003 | 图像主体一致性保持 | 跨图保持主体外观特征不变 |\n| CAP-004 | 风格切换与 LoRA 风格控制 | 将内容渲染为指定艺术风格 |\n| CAP-005 | 人脸修复与增强 | 修复和增强图像中的人脸区域 |\n| CAP-006 | 图像细节增强与高清放大 | 提升图像分辨率并补充细节 |\n| CAP-007 | 图像上色 | 将黑白图像自动上色 |\n| CAP-008 | 批量图像生成 | 自动循环生成大量图像 |\n| CAP-009 | AI 动画帧序列生成 | 生成时间连贯的动画帧序列 |\n| CAP-010 | 动画帧插值 | 在帧间插入过渡帧提升流畅度 |\n| CAP-011 | 工作流自动化与 API 集成 | 程序化调用生成能力集成到外部系统 |\n| CAP-012 | 图像局部重绘 | 对图像指定区域重新生成内容 |\n\n---\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**: ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成\n- **来源依据**: 使用介绍第 2.2 节「文生图工作流搭建（6 步）」详细描述了完整的文生图节点链路；案例 5「建筑效果图快速出图」以文生图为基础结合 LoRA 生成效果图\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**: ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: 案例 2「电商产品图批量生成」使用 IP-Adapter 保持产品一致性；使用介绍 4.5 节列出 IPAdapter 为必备自定义节点\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA，批量切换生成不同风格效果图；使用介绍第 1.3 节功能介绍中列出 LoRA 为核心功能\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中\n- **实现方式**: ComfyUI REST API（POST /prompt 提交任务 + GET /history/{id} 查询结果 + GET /queue 队列管理）+ Python/任意语言客户端\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: 使用介绍第 3.4 节「API 接口」详细描述了 REST API 端点和 Python 调用示例；第 2.3 节应用场景表列出「生产级应用：批量处理、团队协作、CI/CD 集成」\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**: ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复\n- **来源依据**: 使用介绍第 1.3 节功能介绍中明确列出「局部重绘」为核心功能之一；第 2.3 节应用场景「图像生成与编辑：摄影后期处理」涵盖此能力；技术规格 3.1 节输入参数中提及 denoise 参数"
  },
  {
    "tool": "FLUX2_max",
    "response": "# 原子能力清单（更新后）\n\n## 本轮分析\n\n从 FLUX.2 [max] 的文档和用例中，识别出以下能力情况：\n\n**新增能力（3个）**：\n1. **实时语境融合生成**（CAP-013）：FLUX.2 [max] 独有的 Grounded Generation，自动执行网络搜索并将实时信息融入生成结果，是全新的能力维度\n2. **图像内文字渲染**（CAP-014）：在生成图像中嵌入清晰可读的指定文字（如产品标签、Logo 文字），从案例 6 啤酒瓶文字渲染中提炼\n3. **场景光照/时段转换**（CAP-015）：将图像的光照条件、时段氛围进行整体转换（如白天→夜晚），从案例 2 中提炼，与局部重绘有本质区别（是全局语义级转换而非区域像素替换）\n\n**融合到已有能力（4个）**：\n- CAP-003（主体一致性）：FLUX.2 [max] 支持最多10张参考图的多图一致性，补充为新实现方式\n- CAP-012（图像局部重绘）：案例 1 物体替换、案例 3 物体移除均属于局部重绘的典型场景，补充实现方式\n- CAP-001（文本到图像生成）：FLUX.2 [max] 作为端到端文生图工具，补充实现方式\n- CAP-011（工作流自动化与 API 集成）：FLUX.2 [max] 提供 REST API，补充实现方式\n\n**识别为能力组合（不新增）**：\n- 「产品摄影图生成」= CAP-001 + CAP-014 + CAP-003\n- 「Logo 设计生成」= CAP-001 + CAP-014\n\n---\n\n## 新增能力\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件）；若无网络搜索能力，同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中，用户输入「生成一张展现最近皇马与曼城比赛成绩的图片」，模型自动搜索网络获取比赛结果后生成相应图像；使用介绍 2.1 节明确标注「仅 max 独有」的「接地式生成（Grounded Generation）」功能\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌等）\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合\n- **实现方式**: FLUX.2 [max]：在提示词中直接指定文字内容（如 `labeled 'AQUA LAGER'`），模型原生支持文字渲染；注意：文档提及仍有偶尔拼写错误\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: 案例 6「AQUA LAGER 啤酒产品摄影」中，提示词包含品牌文字 `'AQUA LAGER'`，输出图像文字渲染清晰；案例 7「Logo 设计」生成含文字的可商用 Logo；竞品对比表中将「文本渲染」作为独立评估维度\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）\n- **实现方式**: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 `\"将图像做成夜间亮灯的效果\"`）\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中，用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成（更新）\n新增实现方式：\n- **FLUX.2 [max]**：直接输入提示词生成图像，支持最高 32K tokens 提示词、4MP 输出分辨率；案例 4「老渔夫肖像」展示了其在复杂提示词遵循和照片级真实感方面的能力\n\n---\n\n### CAP-003: 图像主体一致性保持（更新）\n新增实现方式：\n- **FLUX.2 [max]**：原生支持最多 10 张参考图像输入，稳定保留人物面部特征、身体比例、表情特点；案例 5「角色一致性保持」展示了多图参考下跨场景/风格的角色一致性\n\n---\n\n### CAP-011: 工作流自动化与 API 集成（更新）\n新增实现方式：\n- **FLUX.2 [max] REST API**：`POST /v1/flux-2-max`（x-key Header 认证）+ 任意语言客户端；支持文生图、图像编辑、填充等多种任务类型的程序化调用；使用介绍 4.2 节提供了完整的端点示例\n\n---\n\n### CAP-012: 图像局部重绘（更新）\n新增实现方式与典型场景：\n- **FLUX.2 [max]**：图像编辑模式，输入原图 + 文字描述目标变化，支持物体替换（案例 1：用参考图中的台灯替换原图台灯，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）；无需手动绘制蒙版，模型自动理解编辑意图\n\n---\n\n## 发现的能力组合\n\n| 组合名称 | 能力构成 | 说明 |\n|----------|----------|------|\n| 产品摄影图生成 | CAP-001 + CAP-014 + CAP-003 | 文生图生成产品场景 + 渲染产品标签文字 + 保持产品外观一致性；对应案例 6 啤酒瓶产品摄影 |\n| Logo 设计生成 | CAP-001 + CAP-014 | 文生图生成设计图形 + 嵌入指定品牌文字；对应案例 7 |\n| 历史场景视觉化 | CAP-013 + CAP-001 | 实时语境搜索获取历史/当前事件信息 + 文生图渲染为视觉场景；对应案例 8、9 |\n| 建筑效果图多时段展示 | CAP-015 + CAP-006 | 场景光照/时段转换生成昼夜版本 + 高清放大输出打印级图像 |\n| 带文字的广告海报 | CAP-001 + CAP-014 + CAP-004 | 文生图生成画面 + 嵌入文字 + 风格控制 |\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**:\n  - ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n  - FLUX.2 [max]：直接输入提示词，支持最高 32K tokens、4MP 输出，照片级真实感突出（案例 4 老渔夫肖像）\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建（6 步）」；案例 5「建筑效果图快速出图」；FLUX.2 [max] 案例 4「老渔夫肖像」展示照片级真实感\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**:\n  - ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n  - FLUX.2 [max]：原生多图参考（最多 10 张），稳定保留人物面部特征、身体比例、表情特点（案例 5 角色一致性保持）\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter；FLUX.2 [max] 案例 5「角色一致性保持」使用多图参考；使用介绍 2.2 节「角色一致性」功能描述\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA，批量切换生成不同风格效果图；使用介绍第 1.3 节功能介绍中列出 LoRA 为核心功能\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n  - ComfyUI REST API：`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n  - FLUX.2 [max] REST API：`POST /v1/flux-2-max`（x-key Header 认证），支持文生图、图像编辑、填充等任务类型的程序化调用；使用介绍 4.2 节提供完整端点示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」；FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**:\n  - ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流\n  - FLUX.2 [max]：图像编辑模式，输入原图 + 文字描述目标变化，无需手动绘制蒙版，支持物体替换（案例 1：台灯替换，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍；FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件）；若无网络搜索能力，同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中模型自动搜索网络获取皇马与曼城比赛结果后生成图像；使用介绍 2.1 节「接地式生成（仅 max 独有）」功能描述\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌等）\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合\n- **实现方式**: FLUX.2 [max]：在提示词中直接指定文字内容（如 `labeled 'AQUA LAGER'`），模型原生支持文字渲染；注意：文档提及仍有偶尔拼写错误，建议对关键文字进行人工校验\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: 案例 6「AQUA LAGER 啤酒产品摄影」提示词包含品牌文字，输出文字渲染清晰；案例 7「Logo 设计」生成含文字的可商用 Logo；竞品对比表将「文本渲染」列为独立评估维度\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）\n- **实现方式**: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 `\"将图像做成夜间亮灯的效果\"`），模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变"
  },
  {
    "tool": "Midjourney_v8",
    "response": "# 原子能力清单（更新后）\n\n## 本轮分析\n\n从 Midjourney v8 的使用介绍和实际用例中分析如下：\n\n**新增能力**：\n- **CAP-016: 原生高分辨率输出**（--hd 参数，原生 2K 输出，区别于 CAP-006 的「放大增强」路径，这是生成阶段直接输出高分辨率）\n- **CAP-017: 全向参考（Omni Reference）**（同时以任意图像作为内容/风格/角色的综合参考，区别于 IP-Adapter 的单一主体一致性和 --sref 的纯风格参考）\n- **CAP-018: 个人化风格系统**（--p 参数，基于用户历史偏好学习并持续应用个人审美倾向）\n\n**与已有能力融合**：\n- CAP-001（文本到图像生成）：补充 Midjourney v8 实现方式\n- CAP-003（图像主体一致性保持）：补充 --cref 角色参考实现方式\n- CAP-004（风格切换与控制）：补充 --sref 风格参考和 --stylize 实现方式\n- CAP-014（图像内文字渲染）：补充 Midjourney v8 改进的文字渲染能力\n\n**不新增（能力组合）**：\n- 案例 1-5 均为文生图的典型应用场景，属于 CAP-001 的使用场景扩展，不单独成立原子能力\n\n---\n\n## 新增能力\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像（而非先生成低分辨率再放大），使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K（2048px）级别分辨率；图像细节（如面料纹理、建筑线条、人物五官）在原生尺寸下清晰完整，无放大插值痕迹\n- **实现方式**:\n  - Midjourney v8: `--hd` 参数，原生输出 2048px，最大宽高比 4:1（HD 模式），GPU 成本为标准的 4 倍；可与 `--q 4` 组合使用（总计 16x GPU 成本）\n  - FLUX.2 [max]：支持最高 4MP 输出（约 2000x2000），在生成阶段直接输出高分辨率\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示（如案例 4 西装面料纹理）、建筑效果图高清直出\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表中 `--hd` 参数说明（原生 2048px）；3.2 节输出规格说明 HD 模式分辨率；3.4 节定价说明 HD 模式为 4x GPU 成本；案例 4「男士西装设计」展示面料纹理细节，是高分辨率直出的典型受益场景\n\n### CAP-017: 全向参考（Omni Reference）\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入，同时影响生成图像的内容主体、风格氛围、角色特征等多个维度，而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征（如同时保留角色外观 + 场景氛围 + 风格倾向）；与单一维度参考（仅风格或仅角色）相比，生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n  - Midjourney v8: Omni Reference 功能（Alpha 阶段），在提示词中上传参考图并指定参考类型权重，可同时作用于角色、风格、内容等多个维度；与 `--cref`（专项角色参考）和 `--sref`（专项风格参考）形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板（mood board）为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考（Omni Reference）」为独立功能；与 `--sref`（风格参考）和 `--cref`（角色参考）并列，说明其为综合性参考能力\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好（如对特定色调、构图、风格的倾向），在后续生成中自动应用这些个人化偏好，使生成结果持续符合用户的个人审美风格\n- **判定标准**: 启用个人化后，生成结果在风格倾向上与用户历史偏好一致，无需每次在提示词中重复描述风格偏好；不同用户使用相同提示词时，因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n  - Midjourney v8: `--p` 参数（个人化系统），基于用户在 Midjourney 平台上的历史生成记录和偏好数据，自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统（--p）」为独立功能；该功能在 Midjourney 系列中为持续迭代的核心差异化能力\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成（更新）\n新增实现方式：\n- **Midjourney v8**: `/imagine prompt: [描述] --v 8`，支持最多 4000 字符提示词，多语言输入（英文效果最佳），默认输出 4 张 1024x1024 PNG 图像；相比 v7 更强的提示词遵循性，默认偏向摄影写实风格；生成速度约 10-15 秒\n\n### CAP-003: 图像主体一致性保持（更新）\n新增实现方式：\n- **Midjourney v8 `--cref`**: 角色参考参数，上传角色参考图后生成保持该角色外观特征的新图像；v8 相比 v7 在解剖结构（尤其手部）和角色一致性方面有明显改进\n\n### CAP-004: 风格切换与风格控制（更新）\n新增实现方式：\n- **Midjourney v8 `--sref`**: 风格参考参数，上传风格参考图，生成图像的视觉风格向参考图靠拢\n- **Midjourney v8 `--stylize [值]`**: 控制风格化程度（如 `--stylize 250`），值越高生成结果越具艺术风格化，值越低越贴近提示词字面描述；`--raw` 参数可获得最低风格化的原始输出\n\n### CAP-014: 图像内文字渲染（更新）\n新增实现方式：\n- **Midjourney v8**: 相比前代版本有「改进的文本渲染」（核心特性之一），在提示词中直接描述需要渲染的文字内容；使用介绍 4.2 节教程视频中专门有「THE BEST TIP for Generating Text in Midjourney V8」，说明文字渲染为 v8 的重点改进方向\n\n---\n\n## 发现的能力组合\n\n1. **角色设计全流程**（案例 1、2）：\n   CAP-001（文生图）+ CAP-003（角色一致性，--cref）+ CAP-016（高清直出，--hd）= 完成「游戏/影视角色概念设计并输出高清稿」\n\n2. **室内/建筑效果图快速出图**（案例 3）：\n   CAP-001（文生图，--ar 16:9）+ CAP-004（风格控制）+ CAP-016（高清直出）= 完成「室内设计效果图快速生成」\n\n3. **时装设计展示**（案例 4）：\n   CAP-001（文生图）+ CAP-004（--stylize 控制风格化程度）+ CAP-016（--hd 高清直出，展示面料纹理）= 完成「服装设计效果图生成」\n\n4. **插画风格创作**（案例 5）：\n   CAP-001（文生图）+ CAP-004（风格控制，水彩/粉彩风格描述）+ CAP-018（个人化，--p）= 完成「特定风格插画创作」\n\n5. **品牌视觉物料生成**：\n   CAP-001（文生图）+ CAP-014（文字渲染）+ CAP-018（个人化风格持久化）+ CAP-016（高清直出）= 完成「品牌一致性视觉物料批量生成」\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**:\n  - ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n  - FLUX.2 [max]：直接输入提示词，支持最高 32K tokens、4MP 输出，照片级真实感突出（案例 4 老渔夫肖像）\n  - Midjourney v8: `/imagine prompt: [描述] --v 8`，支持最多 4000 字符提示词，多语言输入（英文效果最佳），默认输出 4 张 1024x1024 PNG；提示词遵循性强，默认偏向摄影写实风格，生成速度约 10-15 秒\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建（6 步）」；案例 5「建筑效果图快速出图」；FLUX.2 [max] 案例 4「老渔夫肖像」；Midjourney v8 案例 1-5（荒漠游侠、水下城市居民、现代简约客厅、男士西装、童话城堡）\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**:\n  - ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n  - FLUX.2 [max]：原生多图参考（最多 10 张），稳定保留人物面部特征、身体比例、表情特点（案例 5 角色一致性保持）\n  - Midjourney v8 `--cref`：角色参考参数，上传角色参考图后生成保持该角色外观特征的新图像；v8 相比 v7 在解剖结构（尤其手部）和角色一致性方面有明显改进\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter；FLUX.2 [max] 案例 5「角色一致性保持」使用多图参考；Midjourney v8 使用介绍 2.3 节高级功能列出 `--cref`；V8 vs V7 对比说明「角色一致性方面有明显优势」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格；或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格（LoRA/参考图/参数描述）一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n  - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n  - Midjourney v8 `--sref`：风格参考参数，上传风格参考图，生成图像的视觉风格向参考图靠拢\n  - Midjourney v8 `--stylize [值]`：控制风格化程度（如 `--stylize 250`），值越高越具艺术风格化；`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA；Midjourney v8 使用介绍 2.2 节参数表（--stylize、--raw）；2.3 节高级功能（--sref）；案例 4「男士西装设计」使用 `--stylize 250`；案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节（后处理路径，区别于生成阶段直接高清输出的 CAP-016）\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n  - ComfyUI REST API：`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n  - FLUX.2 [max] REST API：`POST /v1/flux-2-max`（x-key Header 认证），支持文生图、图像编辑、填充等任务类型的程序化调用；使用介绍 4.2 节提供完整端点示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」；FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**:\n  - ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流\n  - FLUX.2 [max]：图像编辑模式，输入原图 + 文字描述目标变化，无需手动绘制蒙版，支持物体替换（案例 1：台灯替换，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍；FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件）；若无网络搜索能力，同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中模型自动搜索网络获取皇马与曼城比赛结果后生成图像；使用介绍 2.1 节「接地式生成（仅 max 独有）」功能描述\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌等）\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合\n- **实现方式**:\n  - FLUX.2 [max]：在提示词中直接指定文字内容（如 `labeled 'AQUA LAGER'`），模型原生支持文字渲染；注意仍有偶尔拼写错误，建议对关键文字进行人工校验\n  - Midjourney v8：相比前代版本有「改进的文本渲染」（核心特性之一），在提示词中直接描述需要渲染的文字内容；官方教程视频专门讲解「THE BEST TIP for Generating Text in Midjourney V8」，说明文字渲染为 v8 重点改进方向\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」；案例 7「Logo 设计」；Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」；4.2 节教程视频列表中专项文字渲染教程\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）\n- **实现方式**: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 `\"将图像做成夜间亮灯的效果\"`），模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像（而非先生成低分辨率再后期放大），使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K（2048px）级别分辨率；图像细节（如面料纹理、建筑线条、人物五官）在原生尺寸下清晰完整，无放大插值痕迹\n- **实现方式**:\n  - Midjourney v8: `--hd` 参数，原生输出 2048px，最大宽高比 4:1（HD 模式），GPU 成本为标准的 4 倍；可与 `--q 4` 组合使用（总计 16x GPU 成本）\n  - FLUX.2 [max]：支持最高 4MP 输出（约 2000x2000），在生成阶段直接输出高分辨率\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示（面料纹理）、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表（`--hd` 原生 2048px）；3.2 节输出规格；3.4 节定价说明（HD 模式 4x GPU 成本）；案例 4「男士西装设计」展示面料纹理细节\n\n---\n\n### CAP-017: 全向参考（Omni Reference）\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入，同时影响生成图像的内容主体、风格氛围、角色特征等多个维度，而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征（如同时保留角色外观 + 场景氛围 + 风格倾向）；与单一维度参考（仅风格或仅角色）相比，生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n  - Midjourney v8: Omni Reference 功能（Alpha 阶段），在提示词中上传参考图并指定参考类型权重，可同时作用于角色、风格、内容等多个维度；与 `--cref`（专项角色参考）和 `--sref`（专项风格参考）形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板（mood board）为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考（Omni Reference）」为独立功能，与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好（如对特定色调、构图、风格的倾向），在后续生成中自动应用这些个人化偏好，使生成结果持续符合用户的个人审美风格，无需每次重复描述\n- **判定标准**: 启用个人化后，生成结果在风格倾向上与用户历史偏好一致，无需每次在提示词中重复描述风格偏好；不同用户使用相同提示词时，因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n  - Midjourney v8: `--p` 参数（个人化系统），基于用户在 Midjourney 平台上的历史生成记录和偏好数据，自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统（--p）」为独立功能"
  },
  {
    "tool": "Nano_Banana_Pro",
    "response": "# 原子能力清单（更新后）\n\n## 本轮分析\n\n从 Nano_Banana_Pro（Gemini 3 Pro Image）的文档和用例中，识别出以下能力情况：\n\n**与已有能力融合（补充实现方式）：**\n- CAP-001（文本到图像生成）：Nano Banana Pro 支持文生图，补充为新实现方式\n- CAP-003（图像主体一致性保持）：支持最多 14 张参考图输入，可融合补充\n- CAP-013（实时语境融合生成）：集成 Google Search 实时检索，与 FLUX.2 [max] 的 Grounded Generation 是同类能力\n- CAP-014（图像内文字渲染）：多语言高保真文本渲染是其核心特性，且文本准确率 94-96% 显著优于竞品\n- CAP-016（生成阶段原生高分辨率输出）：支持原生 4K 输出，补充为新实现方式\n- CAP-011（工作流自动化与 API 集成）：提供标准 REST API，补充为新实现方式\n\n**新增能力：**\n- CAP-019（多语言图像内文字渲染）：已有 CAP-014 覆盖文字渲染，但 Nano Banana Pro 的多语言支持（中/日/西班牙文等）和漫画文字翻译场景是显著扩展，经分析仍属 CAP-014 的扩展而非独立能力，融合处理\n- CAP-019（草图/手绘转效果图）：将手绘草图转换为精美效果图，与 CAP-002（结构控制生成）有重叠但侧重点不同——CAP-002 侧重结构约束，本能力侧重风格升级转换，属于新能力\n- CAP-020（多角色/多人物场景合成）：将多个独立人物/主体合成到同一场景中，与 CAP-003（单主体一致性）不同，是新能力\n- CAP-021（图像内文字翻译与替换）：在保持图像原有布局和风格的前提下，将图像中的文字翻译为另一种语言，是独特的新能力\n\n**不添加（能力组合）：**\n- 「AI Influencer 创作」= CAP-001 + CAP-003（角色一致性）\n- 「书籍封面设计」= CAP-001 + CAP-014（文字渲染）\n- 「社交媒体广告」= CAP-001 + CAP-014 + CAP-016（高分辨率）\n- 「信息图与教育内容」= CAP-001 + CAP-013（实时搜索）+ CAP-014\n\n---\n\n## 新增能力\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图，在保持原始构图和空间关系的同时，大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致；视觉质量从草图级提升至效果图/写实级；主要结构元素与草图对应，无随意添加或删除\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入手绘草图图片 + 描述目标风格的提示词（如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`），模型自动完成风格升级转换\n  - ComfyUI: ControlNet（Canny/Lineart 预处理器）+ KSampler 工作流（注：CAP-002 的结构控制路径，但侧重从草图到效果图的质量跃升而非姿态约束）\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: 用例 9「手绘转效果图」，场景描述为「将草图转换为精美效果图」，提示词明确要求保持原始构图并转换为写实建筑渲染风格\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中，生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体（人物/物体）；每个主体的外观特征与其对应参考图一致；各主体在场景中的位置、比例、光照协调自然，整体构图合理\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：支持最多 14 张图片输入，可同时上传多个人物/主体参考图 + 场景描述提示词，模型将所有主体合成到指定场景中（如 `\"Create a team photo of these 8 people in a modern office setting\"`）\n  - FLUX.2 [max]：原生多图参考（最多 10 张），可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成（将多人照片合成为统一场景）、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: 用例 10「多角色场景合成」，场景描述为「将多个人物合成到一个场景中」，示例为将 8 人合成到现代办公室团队照中；技术规格 3.5 节「多图像混合：最多支持 14 张图片输入，保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像（如漫画、海报、标牌）中已有的文字内容，将其翻译为目标语言，并在保持原有字体风格、排版布局和图像其余部分不变的前提下，将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确；替换后的文字在字体风格、大小、位置上与原文字高度一致；图像中非文字区域（背景、人物、图形元素）保持不变；整体视觉效果自然，无明显拼接痕迹\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入含文字的图像 + 翻译指令提示词（如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`），模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: 用例 8「漫画与插画翻译」，场景描述为「将漫画中的文字翻译成其他语言」，来源标注为「知乎变现案例」，提示词明确要求保持原字体风格和布局\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成（融合）\n新增实现方式：\n- **Nano Banana Pro (Gemini 3 Pro Image)**：直接输入提示词，支持 1K/2K/4K 分辨率输出，多种宽高比（1:1 至 21:9），生成速度 8-12 秒，照片级真实感突出（用例 1-3 虚拟网红、专业头像、产品 Mockup）\n\n---\n\n### CAP-003: 图像主体一致性保持（融合）\n新增实现方式：\n- **Nano Banana Pro (Gemini 3 Pro Image)**：原生多图参考（最多 14 张），可输入多张角色/产品参考图，稳定保留主体外观特征；技术规格 3.5 节明确说明「保持角色和品牌一致性」\n\n---\n\n### CAP-011: 工作流自动化与 API 集成（融合）\n新增实现方式：\n- **Nano Banana Pro REST API**：使用 `google-genai` SDK（Python/JS/TS），通过 `client.models.generate_content()` 调用，支持文生图、图像编辑等任务类型的程序化调用；支持 Batch API（50% 折扣）；模型 ID：`gemini-3-pro-image-preview`\n\n---\n\n### CAP-013: 实时语境融合生成（融合）\n新增实现方式：\n- **Nano Banana Pro (Gemini 3 Pro Image)**：集成 Google Search 实时检索（Search Grounding），在生成配置中启用 `tools=[{\"google_search\": {}}]`，可获取实时数据并融入图像生成（用例 6「信息图与教育内容」使用实时数据生成准确信息图表）\n\n---\n\n### CAP-014: 图像内文字渲染（融合）\n新增实现方式：\n- **Nano Banana Pro (Gemini 3 Pro Image)**：多语言高保真文本渲染（英文、中文、日文、西班牙文等），支持复杂排版布局，文本准确率 94-96%（竞品对比表数据），显著优于 Midjourney V7（71%）和 DALL-E 3（76-78%）；用例 4「社交媒体广告」（`\"bold typography saying '50% OFF'\"`）、用例 5「书籍封面设计」（含标题文字）\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出（融合）\n新增实现方式：\n- **Nano Banana Pro (Gemini 3 Pro Image)**：支持原生 4K 超高分辨率输出（$0.24/张），在生成配置中指定 `image_size=\"4K\"`；用例 3「电商产品 Mockup」明确使用 `\"4K resolution\"` 提示词\n\n---\n\n## 发现的能力组合\n\n| 组合场景 | 所用原子能力 |\n|---------|------------|\n| **AI Influencer 创作**（虚拟网红系列图） | CAP-001（文生图）+ CAP-003（角色一致性）+ CAP-016（高分辨率输出） |\n| **书籍封面设计** | CAP-001（文生图）+ CAP-014（文字渲染）+ CAP-004（风格控制） |\n| **社交媒体广告素材** | CAP-001（文生图）+ CAP-014（文字渲染）+ CAP-016（高分辨率输出） |\n| **信息图与教育内容** | CAP-001（文生图）+ CAP-013（实时语境融合）+ CAP-014（文字渲染） |\n| **漫画多语言本地化** | CAP-021（图像内文字翻译与替换）+ CAP-014（文字渲染） |\n| **多人团队合影生成** | CAP-020（多主体场景合成）+ CAP-003（主体一致性保持） |\n| **建筑草图快速可视化** | CAP-019（草图转效果图）+ CAP-016（高分辨率输出）+ CAP-004（风格控制） |\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**:\n  - ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n  - FLUX.2 [max]：直接输入提示词，支持最高 32K tokens、4MP 输出，照片级真实感突出（案例 4 老渔夫肖像）\n  - Midjourney v8: `/imagine prompt: [描述] --v 8`，支持最多 4000 字符提示词，多语言输入（英文效果最佳），默认输出 4 张 1024x1024 PNG；提示词遵循性强，默认偏向摄影写实风格，生成速度约 10-15 秒\n  - Nano Banana Pro (Gemini 3 Pro Image)：直接输入提示词，支持 1K/2K/4K 分辨率输出，多种宽高比（1:1 至 21:9），生成速度 8-12 秒，照片级真实感突出（用例 1-3 虚拟网红、专业头像、产品 Mockup）\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建（6 步）」；案例 5「建筑效果图快速出图」；FLUX.2 [max] 案例 4「老渔夫肖像」；Midjourney v8 案例 1-5；Nano Banana Pro 使用介绍 5.1 节基础图像生成示例；用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**:\n  - ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n  - FLUX.2 [max]：原生多图参考（最多 10 张），稳定保留人物面部特征、身体比例、表情特点（案例 5 角色一致性保持）\n  - Midjourney v8 `--cref`：角色参考参数，上传角色参考图后生成保持该角色外观特征的新图像；v8 相比 v7 在解剖结构（尤其手部）和角色一致性方面有明显改进\n  - Nano Banana Pro (Gemini 3 Pro Image)：原生多图参考（最多 14 张），可同时上传多张角色/产品参考图，稳定保留主体外观特征；技术规格 3.5 节明确说明「保持角色和品牌一致性」\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter；FLUX.2 [max] 案例 5「角色一致性保持」；Midjourney v8 使用介绍 2.3 节高级功能 `--cref`；Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格；或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格（LoRA/参考图/参数描述）一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n  - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n  - Midjourney v8 `--sref`：风格参考参数，上传风格参考图，生成图像的视觉风格向参考图靠拢\n  - Midjourney v8 `--stylize [值]`：控制风格化程度（如 `--stylize 250`），值越高越具艺术风格化；`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA；Midjourney v8 使用介绍 2.2 节参数表（--stylize、--raw）；2.3 节高级功能（--sref）；案例 4「男士西装设计」使用 `--stylize 250`；案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节（后处理路径，区别于生成阶段直接高清输出的 CAP-016）\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预\n- **实现方式**:\n  - ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n  - Nano Banana Pro REST API：Batch API 模式（50% 折扣），程序化批量提交生成任务\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧；Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n  - ComfyUI REST API：`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n  - FLUX.2 [max] REST API：`POST /v1/flux-2-max`（x-key Header 认证），支持文生图、图像编辑、填充等任务类型的程序化调用；使用介绍 4.2 节提供完整端点示例\n  - Nano Banana Pro REST API：使用 `google-genai` SDK（Python ≥1.52.0 / JS/TS ≥1.30），通过 `client.models.generate_content()` 调用，模型 ID `gemini-3-pro-image-preview`；支持 Batch API（50% 折扣）；使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」；FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例；Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**:\n  - ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流\n  - FLUX.2 [max]：图像编辑模式，输入原图 + 文字描述目标变化，无需手动绘制蒙版，支持物体替换（案例 1：台灯替换，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍；FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件、实时数据）；若无网络搜索能力，同样的提示词将无法生成准确内容\n- **实现方式**:\n  - FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果\n  - Nano Banana Pro (Gemini 3 Pro Image)：在生成配置中启用 `tools=[{\"google_search\": {}}]`（Search Grounding），连接 Google 搜索获取实时数据，可生成准确的信息图表和时事相关图像；使用介绍 3.3 节、5.3 节\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成\n- **来源依据**: FLUX.2 [max] 案例 9「足球比赛结果生成」；FLUX.2 [max] 使用介绍 2.1 节「接地式生成」；Nano Banana Pro 使用介绍 3.3 节「搜索接地（Search Grounding）」及 5.3 节代码示例；用例 6「信息图与教育内容」使用实时数据生成准确图表\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌、广告语等）\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合；多语言文字（中/日/西班牙文等）可正确渲染\n- **实现方式**:\n  - FLUX.2 [max]：在提示词中直接指定文字内容（如 `labeled 'AQUA LAGER'`），模型原生支持文字渲染；注意仍有偶尔拼写错误，建议对关键文字进行人工校验\n  - Midjourney v8：相比前代版本有「改进的文本渲染」（核心特性之一），在提示词中直接描述需要渲染的文字内容；官方教程视频专门讲解文字渲染技巧\n  - Nano Banana Pro (Gemini 3 Pro Image)：多语言高保真文本渲染（英文、中文、日文、西班牙文等），支持复杂排版布局，文本准确率 94-96%（竞品对比表数据），显著优于 Midjourney V7（71%）和 DALL-E 3（76-78%）；使用介绍 3.1 节「完美文本渲染」\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」；案例 7「Logo 设计」；Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」；Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」；竞品对比表文本准确率数据；用例 4「社交媒体广告」（含粗体排版文字）、用例 5「书籍封面设计」（含标题文字）\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）\n- **实现方式**: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 `\"将图像做成夜间亮灯的效果\"`），模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像（而非先生成低分辨率再后期放大），使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K（2048px）级别或以上分辨率；图像细节（如面料纹理、建筑线条、人物五官）在原生尺寸下清晰完整，无放大插值痕迹\n- **实现方式**:\n  - Midjourney v8: `--hd` 参数，原生输出 2048px，最大宽高比 4:1（HD 模式），GPU 成本为标准的 4 倍；可与 `--q 4` 组合使用（总计 16x GPU 成本）\n  - FLUX.2 [max]：支持最高 4MP 输出（约 2000x2000），在生成阶段直接输出高分辨率\n  - Nano Banana Pro (Gemini 3 Pro Image)：支持原生 4K 超高分辨率输出（$0.24/张），在生成配置中指定 `image_size=\"4K\"`；使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示（面料纹理）、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表（`--hd` 原生 2048px）；3.2 节输出规格；3.4 节定价说明（HD 模式 4x GPU 成本）；案例 4「男士西装设计」展示面料纹理细节；FLUX.2 [max] 使用介绍；Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例；用例 3「电商产品 Mockup」使用 `\"4K resolution\"`\n\n---\n\n### CAP-017: 全向参考（Omni Reference）\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入，同时影响生成图像的内容主体、风格氛围、角色特征等多个维度，而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征（如同时保留角色外观 + 场景氛围 + 风格倾向）；与单一维度参考（仅风格或仅角色）相比，生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n  - Midjourney v8: Omni Reference 功能（Alpha 阶段），在提示词中上传参考图并指定参考类型权重，可同时作用于角色、风格、内容等多个维度；与 `--cref`（专项角色参考）和 `--sref`（专项风格参考）形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板（mood board）为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考（Omni Reference）」为独立功能，与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好（如对特定色调、构图、风格的倾向），在后续生成中自动应用这些个人化偏好，使生成结果持续符合用户的个人审美风格，无需每次重复描述\n- **判定标准**: 启用个人化后，生成结果在风格倾向上与用户历史偏好一致，无需每次在提示词中重复描述风格偏好；不同用户使用相同提示词时，因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n  - Midjourney v8: `--p` 参数（个人化系统），基于用户在 Midjourney 平台上的历史生成记录和偏好数据，自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统（--p）」为独立功能\n\n---\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图，在保持原始构图和空间关系的同时，大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致；视觉质量从草图级提升至效果图/写实级；主要结构元素与草图对应，无随意添加或删除\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入手绘草图图片 + 描述目标风格的提示词（如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`），模型自动完成风格升级转换\n  - ComfyUI: ControlNet（Canny/Lineart 预处理器）+ KSampler 工作流（侧重从草图到效果图的质量跃升）\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: Nano Banana Pro 用例 9「手绘转效果图」，场景描述为「将草图转换为精美效果图」，提示词明确要求保持原始构图并转换为写实建筑渲染风格；来源标注为「小红书用户案例」\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中，生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体（人物/物体）；每个主体的外观特征与其对应参考图一致；各主体在场景中的位置、比例、光照协调自然，整体构图合理\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：支持最多 14 张图片输入，可同时上传多个人物/主体参考图 + 场景描述提示词，模型将所有主体合成到指定场景中（如 `\"Create a team photo of these 8 people in a modern office setting\"`）\n  - FLUX.2 [max]：原生多图参考（最多 10 张），可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成（将多人照片合成为统一场景）、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: Nano Banana Pro 用例 10「多角色场景合成」，场景描述为「将多个人物合成到一个场景中」，示例为将 8 人合成到现代办公室团队照中；技术规格 3.5 节「多图像混合：最多支持 14 张图片输入，保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像（如漫画、海报、标牌）中已有的文字内容，将其翻译为目标语言，并在保持原有字体风格、排版布局和图像其余部分不变的前提下，将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确；替换后的文字在字体风格、大小、位置上与原文字高度一致；图像中非文字区域（背景、人物、图形元素）保持不变；整体视觉效果自然，无明显拼接痕迹\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入含文字的图像 + 翻译指令提示词（如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`），模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: Nano Banana Pro 用例 8「漫画与插画翻译」，场景描述为「将漫画中的文字翻译成其他语言」，来源标注为「知乎变现案例」，提示词明确要求保持原字体风格和布局"
  },
  {
    "tool": "Seedream_5.0_Lite",
    "response": "# 原子能力清单（更新后）\n\n## 本轮分析\n\n从 Seedream 5.0 Lite 的文档和用例中分析发现：\n\n**新增能力**：无新增原子能力。Seedream 5.0 Lite 的所有核心功能均可映射到已有原子能力框架中。\n\n**融合能力**（共 5 项）：\n1. **CAP-001 文本到图像生成** → 补充 Seedream 5.0 Lite 作为新实现方式\n2. **CAP-003 图像主体一致性保持** → 补充 Seedream 5.0 Lite（最多 14 张参考图，一致性 92%）\n3. **CAP-011 工作流自动化与 API 集成** → 补充 Seedream 5.0 Lite REST API\n4. **CAP-012 图像局部重绘** → 补充 Seedream 5.0 Lite 高级编辑（元素删除/修改、背景替换）\n5. **CAP-013 实时语境融合生成** → 补充 Seedream 5.0 Lite 联网检索能力\n\n**未产生新能力的功能说明**：\n- 「Chain-of-Thought 推理」是技术架构特性，不是面向需求的独立能力，其效果体现在提示词遵循性和生成准确性上，归入 CAP-001 的质量描述\n- 「风格迁移」已被 CAP-004 覆盖，但文档中无足够具体的用例细节，暂不融合\n- 「教育内容创作」是 CAP-013（实时信息）+ CAP-001（文生图）的组合场景，不单独成立原子能力\n\n---\n\n## 新增能力\n\n本轮无新增原子能力。\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成（更新）\n新增实现方式：\n- **Seedream 5.0 Lite**：直接输入提示词，支持文本到图像生成；Chain-of-Thought 推理架构先进行逻辑解析再生成像素，提升提示词遵循性（MagicBench 基准 Prompt Following 维度有显著提升）；生成速度 <1.2s（1080p），适合集成到设计工具链；支持 PNG/JPEG 输出；定价 $0.035/张（BytePlus/Replicate）\n\n**来源依据**：Seedream 5.0 Lite 使用介绍 1.2 节核心特性「精准指令理解」；2.1 节「Chain-of-Thought 推理先行架构」；实际用例「技术亮点」第 3 条「强提示词遵循」及第 4 条「轻量化部署」；竞品对比表生成速度数据\n\n---\n\n### CAP-003: 图像主体一致性保持（更新）\n新增实现方式：\n- **Seedream 5.0 Lite**：原生多图参考（最多 14 张），支持人脸特征、色调、风格等高度稳定的一致性保持，官方标注一致性达 92%；适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面等场景\n\n**来源依据**：Seedream 5.0 Lite 使用介绍 1.2 节「图像一致性增强（支持最多 14 张参考图）」；3.3 节「人脸特征、色调、风格等高度稳定」；实际用例第 3 条「多图一致性创作」，场景包含游戏角色多场景展示、品牌营销素材系列、故事板连续画面，一致性达 92%\n\n---\n\n### CAP-011: 工作流自动化与 API 集成（更新）\n新增实现方式：\n- **Seedream 5.0 Lite REST API**：`POST https://api.byteplus.com/v1/seedream`（Bearer Token 认证），JSON 请求体传入 prompt 及参数；支持 BytePlus、Replicate、Together AI、fal.ai 等多平台 API 接入；生成延迟 <1.2s，适合实时集成场景；定价 $0.035/张（BytePlus）\n\n**来源依据**：Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」提供完整 Python 示例代码；1.4 节「平台支持」列出 BytePlus/Replicate/Together AI/fal.ai 等多平台；2.1 节「轻量化部署（延迟 <1.2s）」\n\n---\n\n### CAP-012: 图像局部重绘（更新）\n新增实现方式：\n- **Seedream 5.0 Lite**：高级编辑模式，支持单图编辑，包括局部元素删除/修改、背景随机替换；通过文字描述指定编辑目标，无需手动绘制蒙版\n\n**来源依据**：Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑：支持单图编辑、元素删除/修改、背景随机替换」；实际用例第 4 条「高级图像编辑」，示例包含局部元素删除/修改、背景随机替换\n\n---\n\n### CAP-013: 实时语境融合生成（更新）\n新增实现方式：\n- **Seedream 5.0 Lite**（实时联网检索，官方称「业界首创」）：在提示词中描述需要实时信息的场景，模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成；使用介绍 3.1 节及实际用例第 1 条\n\n**来源依据**：Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索（业界首创）」；3.1 节「首次引入联网能力，可获取天气、金价、票房等实时信息」；实际用例第 1 条「实时信息可视化」，示例包含当前天气预报可视化、实时金价走势图、最新票房数据图表；实际用例「技术亮点」第 2 条「实时网络搜索」\n\n---\n\n## 发现的能力组合\n\n- **CAP-013（实时语境融合）+ CAP-001（文生图）= 「教育内容与知识图表生成」**：Seedream 5.0 Lite 用例 2「教育内容创作」，利用深度推理理解教学意图 + 文生图能力，生成科学原理解释图、历史事件时间线、数学公式可视化等教育材料。核心驱动是 CAP-001 的提示词理解能力（Chain-of-Thought 推理提升准确性），可选叠加 CAP-013 获取实时知识。\n\n- **CAP-003（主体一致性）+ CAP-001（文生图）= 「故事板/系列图连续创作」**：Seedream 5.0 Lite 用例 3「多图一致性创作」中的故事板连续画面场景，以多张参考图保持角色/场景一致性，同时在不同场景中生成新图像。\n\n- **CAP-012（局部重绘）+ CAP-003（主体一致性）= 「品牌素材精细化编辑」**：Seedream 5.0 Lite 用例 4「高级图像编辑」中的背景替换 + 品牌一致性保持，先用 CAP-003 生成一致性素材，再用 CAP-012 进行局部调整。\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中\n- **实现方式**:\n  - ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n  - FLUX.2 [max]：直接输入提示词，支持最高 32K tokens、4MP 输出，照片级真实感突出（案例 4 老渔夫肖像）\n  - Midjourney v8: `/imagine prompt: [描述] --v 8`，支持最多 4000 字符提示词，多语言输入（英文效果最佳），默认输出 4 张 1024x1024 PNG；提示词遵循性强，默认偏向摄影写实风格，生成速度约 10-15 秒\n  - Nano Banana Pro (Gemini 3 Pro Image)：直接输入提示词，支持 1K/2K/4K 分辨率输出，多种宽高比（1:1 至 21:9），生成速度 8-12 秒，照片级真实感突出（用例 1-3 虚拟网红、专业头像、产品 Mockup）\n  - Seedream 5.0 Lite：直接输入提示词，Chain-of-Thought 推理架构先进行逻辑解析再生成像素，提升提示词遵循性（MagicBench 基准 Prompt Following 维度显著提升）；生成速度 <1.2s（1080p）；支持 PNG/JPEG 输出；定价 $0.035/张\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建（6 步）」；案例 5「建筑效果图快速出图」；FLUX.2 [max] 案例 4「老渔夫肖像」；Midjourney v8 案例 1-5；Nano Banana Pro 使用介绍 5.1 节基础图像生成示例；用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」；Seedream 5.0 Lite 使用介绍 1.2 节、2.1 节、实际用例「技术亮点」第 3-4 条\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化\n- **实现方式**:\n  - ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流\n  - FLUX.2 [max]：原生多图参考（最多 10 张），稳定保留人物面部特征、身体比例、表情特点（案例 5 角色一致性保持）\n  - Midjourney v8 `--cref`：角色参考参数，上传角色参考图后生成保持该角色外观特征的新图像；v8 相比 v7 在解剖结构（尤其手部）和角色一致性方面有明显改进\n  - Nano Banana Pro (Gemini 3 Pro Image)：原生多图参考（最多 14 张），可同时上传多张角色/产品参考图，稳定保留主体外观特征；技术规格 3.5 节明确说明「保持角色和品牌一致性」\n  - Seedream 5.0 Lite：原生多图参考（最多 14 张），人脸特征、色调、风格等高度稳定，官方标注一致性达 92%；适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter；FLUX.2 [max] 案例 5「角色一致性保持」；Midjourney v8 使用介绍 2.3 节高级功能 `--cref`；Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」；Seedream 5.0 Lite 使用介绍 1.2 节、3.3 节；实际用例第 3 条「多图一致性创作」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格；或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格（LoRA/参考图/参数描述）一致；可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n  - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA\n  - Midjourney v8 `--sref`：风格参考参数，上传风格参考图，生成图像的视觉风格向参考图靠拢\n  - Midjourney v8 `--stylize [值]`：控制风格化程度（如 `--stylize 250`），值越高越具艺术风格化；`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA；Midjourney v8 使用介绍 2.2 节参数表（--stylize、--raw）；2.3 节高级功能（--sref）；案例 4「男士西装设计」使用 `--stylize 250`；案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节（后处理路径，区别于生成阶段直接高清输出的 CAP-016）\n- **判定标准**: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预\n- **实现方式**:\n  - ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流\n  - Nano Banana Pro REST API：Batch API 模式（50% 折扣），程序化批量提交生成任务\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧；Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n  - ComfyUI REST API：`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n  - FLUX.2 [max] REST API：`POST /v1/flux-2-max`（x-key Header 认证），支持文生图、图像编辑、填充等任务类型的程序化调用；使用介绍 4.2 节提供完整端点示例\n  - Nano Banana Pro REST API：使用 `google-genai` SDK（Python ≥1.52.0 / JS/TS ≥1.30），通过 `client.models.generate_content()` 调用，模型 ID `gemini-3-pro-image-preview`；支持 Batch API（50% 折扣）；使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例\n  - Seedream 5.0 Lite REST API：`POST https://api.byteplus.com/v1/seedream`（Bearer Token 认证），JSON 请求体传入 prompt 及参数；支持 BytePlus、Replicate、Together AI、fal.ai 等多平台接入；生成延迟 <1.2s，适合实时集成场景；定价 $0.035/张\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」；FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例；Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例；Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」Python 示例、1.4 节「平台支持」、2.1 节「轻量化部署」\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变\n- **实现方式**:\n  - ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流\n  - FLUX.2 [max]：图像编辑模式，输入原图 + 文字描述目标变化，无需手动绘制蒙版，支持物体替换（案例 1：台灯替换，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）\n  - Seedream 5.0 Lite：高级编辑模式，支持单图编辑，包括局部元素删除/修改、背景随机替换；通过文字描述指定编辑目标，无需手动绘制蒙版\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍；FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」；Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑」；实际用例第 4 条「高级图像编辑」，示例包含局部元素删除/修改、背景随机替换\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件、实时数据）；若无网络搜索能力，同样的提示词将无法生成准确内容\n- **实现方式**:\n  - FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果\n  - Nano Banana Pro (Gemini 3 Pro Image)：在生成配置中启用 `tools=[{\"google_search\": {}}]`（Search Grounding），连接 Google 搜索获取实时数据，可生成准确的信息图表和时事相关图像；使用介绍 3.3 节、5.3 节\n  - Seedream 5.0 Lite：实时联网检索（官方称「业界首创」），在提示词中描述需要实时信息的场景，模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成；使用介绍 3.1 节\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成、天气预报可视化、金融数据图表\n- **来源依据**: FLUX.2 [max] 案例 9「足球比赛结果生成」；FLUX.2 [max] 使用介绍 2.1 节「接地式生成」；Nano Banana Pro 使用介绍 3.3 节「搜索接地（Search Grounding）」及 5.3 节代码示例；用例 6「信息图与教育内容」；Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索」、3.1 节详细说明；实际用例第 1 条「实时信息可视化」（天气预报、金价走势图、票房数据图表）及「技术亮点」第 2 条\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌、广告语等）\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合；多语言文字（中/日/西班牙文等）可正确渲染\n- **实现方式**:\n  - FLUX.2 [max]：在提示词中直接指定文字内容（如 `labeled 'AQUA LAGER'`），模型原生支持文字渲染；注意仍有偶尔拼写错误，建议对关键文字进行人工校验\n  - Midjourney v8：相比前代版本有「改进的文本渲染」（核心特性之一），在提示词中直接描述需要渲染的文字内容；官方教程视频专门讲解文字渲染技巧\n  - Nano Banana Pro (Gemini 3 Pro Image)：多语言高保真文本渲染（英文、中文、日文、西班牙文等），支持复杂排版布局，文本准确率 94-96%（竞品对比表数据），显著优于 Midjourney V7（71%）和 DALL-E 3（76-78%）；使用介绍 3.1 节「完美文本渲染」\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」；案例 7「Logo 设计」；Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」；Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」；竞品对比表文本准确率数据；用例 4「社交媒体广告」（含粗体排版文字）、用例 5「书籍封面设计」（含标题文字）\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）\n- **实现方式**: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 `\"将图像做成夜间亮灯的效果\"`），模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像（而非先生成低分辨率再后期放大），使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K（2048px）级别或以上分辨率；图像细节（如面料纹理、建筑线条、人物五官）在原生尺寸下清晰完整，无放大插值痕迹\n- **实现方式**:\n  - Midjourney v8: `--hd` 参数，原生输出 2048px，最大宽高比 4:1（HD 模式），GPU 成本为标准的 4 倍；可与 `--q 4` 组合使用（总计 16x GPU 成本）\n  - FLUX.2 [max]：支持最高 4MP 输出（约 2000x2000），在生成阶段直接输出高分辨率\n  - Nano Banana Pro (Gemini 3 Pro Image)：支持原生 4K 超高分辨率输出（$0.24/张），在生成配置中指定 `image_size=\"4K\"`；使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示（面料纹理）、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表（`--hd` 原生 2048px）；3.2 节输出规格；3.4 节定价说明（HD 模式 4x GPU 成本）；案例 4「男士西装设计」展示面料纹理细节；FLUX.2 [max] 使用介绍；Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例；用例 3「电商产品 Mockup」使用 `\"4K resolution\"`\n\n---\n\n### CAP-017: 全向参考（Omni Reference）\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入，同时影响生成图像的内容主体、风格氛围、角色特征等多个维度，而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征（如同时保留角色外观 + 场景氛围 + 风格倾向）；与单一维度参考（仅风格或仅角色）相比，生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n  - Midjourney v8: Omni Reference 功能（Alpha 阶段），在提示词中上传参考图并指定参考类型权重，可同时作用于角色、风格、内容等多个维度；与 `--cref`（专项角色参考）和 `--sref`（专项风格参考）形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板（mood board）为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考（Omni Reference）」为独立功能，与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好（如对特定色调、构图、风格的倾向），在后续生成中自动应用这些个人化偏好，使生成结果持续符合用户的个人审美风格，无需每次重复描述\n- **判定标准**: 启用个人化后，生成结果在风格倾向上与用户历史偏好一致，无需每次在提示词中重复描述风格偏好；不同用户使用相同提示词时，因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n  - Midjourney v8: `--p` 参数（个人化系统），基于用户在 Midjourney 平台上的历史生成记录和偏好数据，自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统（--p）」为独立功能\n\n---\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图，在保持原始构图和空间关系的同时，大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致；视觉质量从草图级提升至效果图/写实级；主要结构元素与草图对应，无随意添加或删除\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入手绘草图图片 + 描述目标风格的提示词（如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`），模型自动完成风格升级转换\n  - ComfyUI: ControlNet（Canny/Lineart 预处理器）+ KSampler 工作流（侧重从草图到效果图的质量跃升）\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: Nano Banana Pro 用例 9「手绘转效果图」，场景描述为「将草图转换为精美效果图」，提示词明确要求保持原始构图并转换为写实建筑渲染风格；来源标注为「小红书用户案例」\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中，生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体（人物/物体）；每个主体的外观特征与其对应参考图一致；各主体在场景中的位置、比例、光照协调自然，整体构图合理\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：支持最多 14 张图片输入，可同时上传多个人物/主体参考图 + 场景描述提示词，模型将所有主体合成到指定场景中（如 `\"Create a team photo of these 8 people in a modern office setting\"`）\n  - FLUX.2 [max]：原生多图参考（最多 10 张），可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成（将多人照片合成为统一场景）、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: Nano Banana Pro 用例 10「多角色场景合成」，场景描述为「将多个人物合成到一个场景中」，示例为将 8 人合成到现代办公室团队照中；技术规格 3.5 节「多图像混合：最多支持 14 张图片输入，保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像（如漫画、海报、标牌）中已有的文字内容，将其翻译为目标语言，并在保持原有字体风格、排版布局和图像其余部分不变的前提下，将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确；替换后的文字在字体风格、大小、位置上与原文字高度一致；图像中非文字区域（背景、人物、图形元素）保持不变；整体视觉效果自然，无明显拼接痕迹\n- **实现方式**:\n  - Nano Banana Pro (Gemini 3 Pro Image)：输入含文字的图像 + 翻译指令提示词（如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`），模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: Nano Banana Pro 用例 8「漫画与插画翻译」，场景描述为「将漫画中的文字翻译成其他语言」，来源标注为「知乎变现案例」，提示词明确要求保持原字体风格和布局"
  }
]