atomic_capabilities_detail.json 134 KB

12345678910111213141516171819202122
  1. [
  2. {
  3. "tool": "ComfyUI",
  4. "response": "# 原子能力清单(更新后)\n\n## 本轮分析\n\n从 ComfyUI 的使用介绍和 5 个实际用例中,识别出以下面向需求的原子能力:\n\n1. **文本到图像生成**(Text-to-Image):核心基础能力\n2. **角色多视图生成**:保持角色一致性的多角度输出\n3. **图像风格迁移/LoRA 风格控制**:通过 LoRA 切换不同风格\n4. **姿态/结构控制生成**:通过 ControlNet 控制图像结构\n5. **图像一致性保持**:IP-Adapter 保持主体特征\n6. **人脸修复与增强**:CodeFormer 等修复人脸\n7. **图像细节增强与高清放大**:Tile 模型、高清修复\n8. **图像上色**:黑白图像自动上色\n9. **批量图像生成**:批处理循环生成多张图\n10. **AI 动画生成**:AnimateDiff 生成帧序列\n11. **帧插值**:RIFE 等提升动画流畅度\n12. **工作流自动化/API 调用**:程序化批量调用\n\n由于是第一次提取,全部为新增能力,无融合项。\n\n---\n\n## 新增能力\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**: ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成\n- **来源依据**: 使用介绍第 2.2 节「文生图工作流搭建(6 步)」详细描述了完整的文生图节点链路;案例 5「建筑效果图快速出图」中以文生图为基础结合 LoRA 生成效果图\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构,而非仅依赖文字描述\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」中使用 ControlNet 控制角色姿态生成三视图;案例 5「建筑效果图快速出图」中使用线稿作为 ControlNet 输入生成建筑效果图;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**: ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: 案例 2「电商产品图批量生成」中使用 IP-Adapter 保持产品一致性,在多个背景模板下生成展示图;使用介绍 4.5 节列出 IPAdapter 为必备自定义节点\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格(如现代、古典、工业、动漫等)\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA,批量切换生成不同风格效果图;使用介绍第 2.3 节应用场景表中提及 LoRA 为核心功能之一\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题,使人脸清晰自然\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点(Impact-Pack 自定义节点包中的 FaceDetailer)+ 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」中使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack(含人脸修复)和 ReActor(换脸)为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节,而非简单插值放大\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile 模型(Tile ControlNet)+ VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」中使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」中使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点;4.6 节提及 Tiled VAE 用于大图处理\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(如皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」中使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化(背景/参数/种子);自动保存并按规则命名,无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验、社交媒体内容批量制作\n- **来源依据**: 案例 2「电商产品图批量生成」中通过批处理节点循环生成 100+ 张产品图,效率提升 10 倍;使用介绍 4.2 节提及「使用 batch_size 而非多次运行」的性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使静态图像内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成、社交媒体动态内容\n- **来源依据**: 案例 4「AI 动画短片制作」中使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性,批量生成后合成视频;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」中使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将 ComfyUI 的图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到 CI/CD 或业务系统中\n- **实现方式**: ComfyUI REST API(POST /prompt 提交任务 + GET /history/{id} 查询结果)+ Python/任意语言客户端\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线、定时任务触发生成\n- **来源依据**: 使用介绍第 3.4 节「API 接口」详细描述了 REST API 端点和 Python 调用示例;第 2.3 节应用场景表中列出「生产级应用:批量处理、团队协作、CI/CD 集成」\n\n---\n\n### CAP-012: 图像局部重绘(Inpainting)\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**: ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise < 1)+ VAEDecode 工作流\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复\n- **来源依据**: 使用介绍第 1.3 节功能介绍中明确列出「局部重绘」为核心功能之一;第 2.3 节应用场景「图像生成与编辑:摄影后期处理」隐含此能力;技术规格 3.1 节输入参数中提及 denoise 参数控制重绘强度\n\n---\n\n## 融合能力\n\n本轮为首次提取,无已有能力,无融合项。\n\n---\n\n## 发现的能力组合\n\n### 组合 1:游戏角色多视图生成流水线\n**CAP-001(文本到图像生成)+ CAP-002(结构/姿态控制生成)+ CAP-003(图像主体一致性保持)**\n= 完成「游戏角色三视图生成」(案例 1)\n> 先用文生图生成角色概念图,再用 ControlNet 控制正/侧/背面姿态,用 IP-Adapter 保持角色外观一致性\n\n---\n\n### 组合 2:电商产品图批量生产流水线\n**CAP-003(图像主体一致性保持)+ CAP-008(批量图像生成)+ CAP-011(工作流自动化与 API 集成)**\n= 完成「电商产品多背景批量出图」(案例 2)\n> IP-Adapter 保持产品外观,批处理节点循环多个背景模板,API 集成到电商系统自动触发\n\n---\n\n### 组合 3:老照片修复与上色流水线\n**CAP-005(人脸修复与增强)+ CAP-006(图像细节增强与高清放大)+ CAP-007(图像上色)**\n= 完成「老照片修复上色」(案例 3)\n> CodeFormer 修复人脸 → Tile 模型增强细节 → DeOldify 上色\n\n---\n\n### 组合 4:AI 动画短片制作流水线\n**CAP-009(AI 动画帧序列生成)+ CAP-002(结构/姿态控制生成)+ CAP-010(动画帧插值)**\n= 完成「AI 动画短片制作」(案例 4)\n> AnimateDiff 生成基础帧序列,ControlNet 保持角色一致性,RIFE 帧插值提升流畅度,合成视频\n\n---\n\n### 组合 5:建筑效果图快速多风格出图流水线\n**CAP-002(结构/姿态控制生成)+ CAP-004(风格切换与 LoRA 风格控制)+ CAP-006(图像细节增强与高清放大)+ CAP-008(批量图像生成)**\n= 完成「建筑效果图快速出图」(案例 5)\n> 线稿 ControlNet 控制建筑结构,批量切换风格 LoRA,高清修复提升细节,批处理批量输出\n\n---\n\n## 完整能力清单\n\n| 能力 ID | 能力名称 | 核心需求 |\n|---------|----------|----------|\n| CAP-001 | 文本到图像生成 | 从文字描述生成图像 |\n| CAP-002 | 结构/姿态控制生成 | 以结构图约束生成图像的空间结构 |\n| CAP-003 | 图像主体一致性保持 | 跨图保持主体外观特征不变 |\n| CAP-004 | 风格切换与 LoRA 风格控制 | 将内容渲染为指定艺术风格 |\n| CAP-005 | 人脸修复与增强 | 修复和增强图像中的人脸区域 |\n| CAP-006 | 图像细节增强与高清放大 | 提升图像分辨率并补充细节 |\n| CAP-007 | 图像上色 | 将黑白图像自动上色 |\n| CAP-008 | 批量图像生成 | 自动循环生成大量图像 |\n| CAP-009 | AI 动画帧序列生成 | 生成时间连贯的动画帧序列 |\n| CAP-010 | 动画帧插值 | 在帧间插入过渡帧提升流畅度 |\n| CAP-011 | 工作流自动化与 API 集成 | 程序化调用生成能力集成到外部系统 |\n| CAP-012 | 图像局部重绘 | 对图像指定区域重新生成内容 |\n\n---\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**: ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成\n- **来源依据**: 使用介绍第 2.2 节「文生图工作流搭建(6 步)」详细描述了完整的文生图节点链路;案例 5「建筑效果图快速出图」以文生图为基础结合 LoRA 生成效果图\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**: ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: 案例 2「电商产品图批量生成」使用 IP-Adapter 保持产品一致性;使用介绍 4.5 节列出 IPAdapter 为必备自定义节点\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA,批量切换生成不同风格效果图;使用介绍第 1.3 节功能介绍中列出 LoRA 为核心功能\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中\n- **实现方式**: ComfyUI REST API(POST /prompt 提交任务 + GET /history/{id} 查询结果 + GET /queue 队列管理)+ Python/任意语言客户端\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: 使用介绍第 3.4 节「API 接口」详细描述了 REST API 端点和 Python 调用示例;第 2.3 节应用场景表列出「生产级应用:批量处理、团队协作、CI/CD 集成」\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**: ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复\n- **来源依据**: 使用介绍第 1.3 节功能介绍中明确列出「局部重绘」为核心功能之一;第 2.3 节应用场景「图像生成与编辑:摄影后期处理」涵盖此能力;技术规格 3.1 节输入参数中提及 denoise 参数"
  5. },
  6. {
  7. "tool": "FLUX2_max",
  8. "response": "# 原子能力清单(更新后)\n\n## 本轮分析\n\n从 FLUX.2 [max] 的文档和用例中,识别出以下能力情况:\n\n**新增能力(3个)**:\n1. **实时语境融合生成**(CAP-013):FLUX.2 [max] 独有的 Grounded Generation,自动执行网络搜索并将实时信息融入生成结果,是全新的能力维度\n2. **图像内文字渲染**(CAP-014):在生成图像中嵌入清晰可读的指定文字(如产品标签、Logo 文字),从案例 6 啤酒瓶文字渲染中提炼\n3. **场景光照/时段转换**(CAP-015):将图像的光照条件、时段氛围进行整体转换(如白天→夜晚),从案例 2 中提炼,与局部重绘有本质区别(是全局语义级转换而非区域像素替换)\n\n**融合到已有能力(4个)**:\n- CAP-003(主体一致性):FLUX.2 [max] 支持最多10张参考图的多图一致性,补充为新实现方式\n- CAP-012(图像局部重绘):案例 1 物体替换、案例 3 物体移除均属于局部重绘的典型场景,补充实现方式\n- CAP-001(文本到图像生成):FLUX.2 [max] 作为端到端文生图工具,补充实现方式\n- CAP-011(工作流自动化与 API 集成):FLUX.2 [max] 提供 REST API,补充实现方式\n\n**识别为能力组合(不新增)**:\n- 「产品摄影图生成」= CAP-001 + CAP-014 + CAP-003\n- 「Logo 设计生成」= CAP-001 + CAP-014\n\n---\n\n## 新增能力\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件);若无网络搜索能力,同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中,用户输入「生成一张展现最近皇马与曼城比赛成绩的图片」,模型自动搜索网络获取比赛结果后生成相应图像;使用介绍 2.1 节明确标注「仅 max 独有」的「接地式生成(Grounded Generation)」功能\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌等)\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合\n- **实现方式**: FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意:文档提及仍有偶尔拼写错误\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: 案例 6「AQUA LAGER 啤酒产品摄影」中,提示词包含品牌文字 `'AQUA LAGER'`,输出图像文字渲染清晰;案例 7「Logo 设计」生成含文字的可商用 Logo;竞品对比表中将「文本渲染」作为独立评估维度\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)\n- **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `\"将图像做成夜间亮灯的效果\"`)\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中,用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成(更新)\n新增实现方式:\n- **FLUX.2 [max]**:直接输入提示词生成图像,支持最高 32K tokens 提示词、4MP 输出分辨率;案例 4「老渔夫肖像」展示了其在复杂提示词遵循和照片级真实感方面的能力\n\n---\n\n### CAP-003: 图像主体一致性保持(更新)\n新增实现方式:\n- **FLUX.2 [max]**:原生支持最多 10 张参考图像输入,稳定保留人物面部特征、身体比例、表情特点;案例 5「角色一致性保持」展示了多图参考下跨场景/风格的角色一致性\n\n---\n\n### CAP-011: 工作流自动化与 API 集成(更新)\n新增实现方式:\n- **FLUX.2 [max] REST API**:`POST /v1/flux-2-max`(x-key Header 认证)+ 任意语言客户端;支持文生图、图像编辑、填充等多种任务类型的程序化调用;使用介绍 4.2 节提供了完整的端点示例\n\n---\n\n### CAP-012: 图像局部重绘(更新)\n新增实现方式与典型场景:\n- **FLUX.2 [max]**:图像编辑模式,输入原图 + 文字描述目标变化,支持物体替换(案例 1:用参考图中的台灯替换原图台灯,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景);无需手动绘制蒙版,模型自动理解编辑意图\n\n---\n\n## 发现的能力组合\n\n| 组合名称 | 能力构成 | 说明 |\n|----------|----------|------|\n| 产品摄影图生成 | CAP-001 + CAP-014 + CAP-003 | 文生图生成产品场景 + 渲染产品标签文字 + 保持产品外观一致性;对应案例 6 啤酒瓶产品摄影 |\n| Logo 设计生成 | CAP-001 + CAP-014 | 文生图生成设计图形 + 嵌入指定品牌文字;对应案例 7 |\n| 历史场景视觉化 | CAP-013 + CAP-001 | 实时语境搜索获取历史/当前事件信息 + 文生图渲染为视觉场景;对应案例 8、9 |\n| 建筑效果图多时段展示 | CAP-015 + CAP-006 | 场景光照/时段转换生成昼夜版本 + 高清放大输出打印级图像 |\n| 带文字的广告海报 | CAP-001 + CAP-014 + CAP-004 | 文生图生成画面 + 嵌入文字 + 风格控制 |\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**:\n - ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n - FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像)\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」展示照片级真实感\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**:\n - ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n - FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持)\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」使用多图参考;使用介绍 2.2 节「角色一致性」功能描述\n\n---\n\n### CAP-004: 风格切换与 LoRA 风格控制\n- **功能描述**: 通过加载不同的 LoRA 模型,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格\n- **判定标准**: 生成图像的视觉风格与目标 LoRA 所代表的风格一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**: ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索\n- **来源依据**: 案例 5「建筑效果图快速出图」中准备多个风格 LoRA,批量切换生成不同风格效果图;使用介绍第 1.3 节功能介绍中列出 LoRA 为核心功能\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n - ComfyUI REST API:`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n - FLUX.2 [max] REST API:`POST /v1/flux-2-max`(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**:\n - ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流\n - FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景)\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件);若无网络搜索能力,同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中模型自动搜索网络获取皇马与曼城比赛结果后生成图像;使用介绍 2.1 节「接地式生成(仅 max 独有)」功能描述\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌等)\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合\n- **实现方式**: FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意:文档提及仍有偶尔拼写错误,建议对关键文字进行人工校验\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: 案例 6「AQUA LAGER 啤酒产品摄影」提示词包含品牌文字,输出文字渲染清晰;案例 7「Logo 设计」生成含文字的可商用 Logo;竞品对比表将「文本渲染」列为独立评估维度\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)\n- **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `\"将图像做成夜间亮灯的效果\"`),模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变"
  9. },
  10. {
  11. "tool": "Midjourney_v8",
  12. "response": "# 原子能力清单(更新后)\n\n## 本轮分析\n\n从 Midjourney v8 的使用介绍和实际用例中分析如下:\n\n**新增能力**:\n- **CAP-016: 原生高分辨率输出**(--hd 参数,原生 2K 输出,区别于 CAP-006 的「放大增强」路径,这是生成阶段直接输出高分辨率)\n- **CAP-017: 全向参考(Omni Reference)**(同时以任意图像作为内容/风格/角色的综合参考,区别于 IP-Adapter 的单一主体一致性和 --sref 的纯风格参考)\n- **CAP-018: 个人化风格系统**(--p 参数,基于用户历史偏好学习并持续应用个人审美倾向)\n\n**与已有能力融合**:\n- CAP-001(文本到图像生成):补充 Midjourney v8 实现方式\n- CAP-003(图像主体一致性保持):补充 --cref 角色参考实现方式\n- CAP-004(风格切换与控制):补充 --sref 风格参考和 --stylize 实现方式\n- CAP-014(图像内文字渲染):补充 Midjourney v8 改进的文字渲染能力\n\n**不新增(能力组合)**:\n- 案例 1-5 均为文生图的典型应用场景,属于 CAP-001 的使用场景扩展,不单独成立原子能力\n\n---\n\n## 新增能力\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K(2048px)级别分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹\n- **实现方式**:\n - Midjourney v8: `--hd` 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 `--q 4` 组合使用(总计 16x GPU 成本)\n - FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(如案例 4 西装面料纹理)、建筑效果图高清直出\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表中 `--hd` 参数说明(原生 2048px);3.2 节输出规格说明 HD 模式分辨率;3.4 节定价说明 HD 模式为 4x GPU 成本;案例 4「男士西装设计」展示面料纹理细节,是高分辨率直出的典型受益场景\n\n### CAP-017: 全向参考(Omni Reference)\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n - Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 `--cref`(专项角色参考)和 `--sref`(专项风格参考)形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能;与 `--sref`(风格参考)和 `--cref`(角色参考)并列,说明其为综合性参考能力\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格\n- **判定标准**: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n - Midjourney v8: `--p` 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能;该功能在 Midjourney 系列中为持续迭代的核心差异化能力\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成(更新)\n新增实现方式:\n- **Midjourney v8**: `/imagine prompt: [描述] --v 8`,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG 图像;相比 v7 更强的提示词遵循性,默认偏向摄影写实风格;生成速度约 10-15 秒\n\n### CAP-003: 图像主体一致性保持(更新)\n新增实现方式:\n- **Midjourney v8 `--cref`**: 角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进\n\n### CAP-004: 风格切换与风格控制(更新)\n新增实现方式:\n- **Midjourney v8 `--sref`**: 风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢\n- **Midjourney v8 `--stylize [值]`**: 控制风格化程度(如 `--stylize 250`),值越高生成结果越具艺术风格化,值越低越贴近提示词字面描述;`--raw` 参数可获得最低风格化的原始输出\n\n### CAP-014: 图像内文字渲染(更新)\n新增实现方式:\n- **Midjourney v8**: 相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;使用介绍 4.2 节教程视频中专门有「THE BEST TIP for Generating Text in Midjourney V8」,说明文字渲染为 v8 的重点改进方向\n\n---\n\n## 发现的能力组合\n\n1. **角色设计全流程**(案例 1、2):\n CAP-001(文生图)+ CAP-003(角色一致性,--cref)+ CAP-016(高清直出,--hd)= 完成「游戏/影视角色概念设计并输出高清稿」\n\n2. **室内/建筑效果图快速出图**(案例 3):\n CAP-001(文生图,--ar 16:9)+ CAP-004(风格控制)+ CAP-016(高清直出)= 完成「室内设计效果图快速生成」\n\n3. **时装设计展示**(案例 4):\n CAP-001(文生图)+ CAP-004(--stylize 控制风格化程度)+ CAP-016(--hd 高清直出,展示面料纹理)= 完成「服装设计效果图生成」\n\n4. **插画风格创作**(案例 5):\n CAP-001(文生图)+ CAP-004(风格控制,水彩/粉彩风格描述)+ CAP-018(个人化,--p)= 完成「特定风格插画创作」\n\n5. **品牌视觉物料生成**:\n CAP-001(文生图)+ CAP-014(文字渲染)+ CAP-018(个人化风格持久化)+ CAP-016(高清直出)= 完成「品牌一致性视觉物料批量生成」\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**:\n - ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n - FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像)\n - Midjourney v8: `/imagine prompt: [描述] --v 8`,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG;提示词遵循性强,默认偏向摄影写实风格,生成速度约 10-15 秒\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」;Midjourney v8 案例 1-5(荒漠游侠、水下城市居民、现代简约客厅、男士西装、童话城堡)\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**:\n - ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n - FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持)\n - Midjourney v8 `--cref`:角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」使用多图参考;Midjourney v8 使用介绍 2.3 节高级功能列出 `--cref`;V8 vs V7 对比说明「角色一致性方面有明显优势」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格;或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格(LoRA/参考图/参数描述)一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n - Midjourney v8 `--sref`:风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢\n - Midjourney v8 `--stylize [值]`:控制风格化程度(如 `--stylize 250`),值越高越具艺术风格化;`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA;Midjourney v8 使用介绍 2.2 节参数表(--stylize、--raw);2.3 节高级功能(--sref);案例 4「男士西装设计」使用 `--stylize 250`;案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节(后处理路径,区别于生成阶段直接高清输出的 CAP-016)\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预\n- **实现方式**: ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n - ComfyUI REST API:`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n - FLUX.2 [max] REST API:`POST /v1/flux-2-max`(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**:\n - ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流\n - FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景)\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件);若无网络搜索能力,同样的提示词将无法生成准确内容\n- **实现方式**: FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图\n- **来源依据**: 案例 9「足球比赛结果生成」中模型自动搜索网络获取皇马与曼城比赛结果后生成图像;使用介绍 2.1 节「接地式生成(仅 max 独有)」功能描述\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌等)\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合\n- **实现方式**:\n - FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意仍有偶尔拼写错误,建议对关键文字进行人工校验\n - Midjourney v8:相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;官方教程视频专门讲解「THE BEST TIP for Generating Text in Midjourney V8」,说明文字渲染为 v8 重点改进方向\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」;案例 7「Logo 设计」;Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」;4.2 节教程视频列表中专项文字渲染教程\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)\n- **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `\"将图像做成夜间亮灯的效果\"`),模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再后期放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K(2048px)级别分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹\n- **实现方式**:\n - Midjourney v8: `--hd` 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 `--q 4` 组合使用(总计 16x GPU 成本)\n - FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(面料纹理)、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表(`--hd` 原生 2048px);3.2 节输出规格;3.4 节定价说明(HD 模式 4x GPU 成本);案例 4「男士西装设计」展示面料纹理细节\n\n---\n\n### CAP-017: 全向参考(Omni Reference)\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n - Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 `--cref`(专项角色参考)和 `--sref`(专项风格参考)形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能,与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格,无需每次重复描述\n- **判定标准**: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n - Midjourney v8: `--p` 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能"
  13. },
  14. {
  15. "tool": "Nano_Banana_Pro",
  16. "response": "# 原子能力清单(更新后)\n\n## 本轮分析\n\n从 Nano_Banana_Pro(Gemini 3 Pro Image)的文档和用例中,识别出以下能力情况:\n\n**与已有能力融合(补充实现方式):**\n- CAP-001(文本到图像生成):Nano Banana Pro 支持文生图,补充为新实现方式\n- CAP-003(图像主体一致性保持):支持最多 14 张参考图输入,可融合补充\n- CAP-013(实时语境融合生成):集成 Google Search 实时检索,与 FLUX.2 [max] 的 Grounded Generation 是同类能力\n- CAP-014(图像内文字渲染):多语言高保真文本渲染是其核心特性,且文本准确率 94-96% 显著优于竞品\n- CAP-016(生成阶段原生高分辨率输出):支持原生 4K 输出,补充为新实现方式\n- CAP-011(工作流自动化与 API 集成):提供标准 REST API,补充为新实现方式\n\n**新增能力:**\n- CAP-019(多语言图像内文字渲染):已有 CAP-014 覆盖文字渲染,但 Nano Banana Pro 的多语言支持(中/日/西班牙文等)和漫画文字翻译场景是显著扩展,经分析仍属 CAP-014 的扩展而非独立能力,融合处理\n- CAP-019(草图/手绘转效果图):将手绘草图转换为精美效果图,与 CAP-002(结构控制生成)有重叠但侧重点不同——CAP-002 侧重结构约束,本能力侧重风格升级转换,属于新能力\n- CAP-020(多角色/多人物场景合成):将多个独立人物/主体合成到同一场景中,与 CAP-003(单主体一致性)不同,是新能力\n- CAP-021(图像内文字翻译与替换):在保持图像原有布局和风格的前提下,将图像中的文字翻译为另一种语言,是独特的新能力\n\n**不添加(能力组合):**\n- 「AI Influencer 创作」= CAP-001 + CAP-003(角色一致性)\n- 「书籍封面设计」= CAP-001 + CAP-014(文字渲染)\n- 「社交媒体广告」= CAP-001 + CAP-014 + CAP-016(高分辨率)\n- 「信息图与教育内容」= CAP-001 + CAP-013(实时搜索)+ CAP-014\n\n---\n\n## 新增能力\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图,在保持原始构图和空间关系的同时,大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致;视觉质量从草图级提升至效果图/写实级;主要结构元素与草图对应,无随意添加或删除\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入手绘草图图片 + 描述目标风格的提示词(如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`),模型自动完成风格升级转换\n - ComfyUI: ControlNet(Canny/Lineart 预处理器)+ KSampler 工作流(注:CAP-002 的结构控制路径,但侧重从草图到效果图的质量跃升而非姿态约束)\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: 用例 9「手绘转效果图」,场景描述为「将草图转换为精美效果图」,提示词明确要求保持原始构图并转换为写实建筑渲染风格\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中,生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体(人物/物体);每个主体的外观特征与其对应参考图一致;各主体在场景中的位置、比例、光照协调自然,整体构图合理\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):支持最多 14 张图片输入,可同时上传多个人物/主体参考图 + 场景描述提示词,模型将所有主体合成到指定场景中(如 `\"Create a team photo of these 8 people in a modern office setting\"`)\n - FLUX.2 [max]:原生多图参考(最多 10 张),可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成(将多人照片合成为统一场景)、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: 用例 10「多角色场景合成」,场景描述为「将多个人物合成到一个场景中」,示例为将 8 人合成到现代办公室团队照中;技术规格 3.5 节「多图像混合:最多支持 14 张图片输入,保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像(如漫画、海报、标牌)中已有的文字内容,将其翻译为目标语言,并在保持原有字体风格、排版布局和图像其余部分不变的前提下,将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确;替换后的文字在字体风格、大小、位置上与原文字高度一致;图像中非文字区域(背景、人物、图形元素)保持不变;整体视觉效果自然,无明显拼接痕迹\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入含文字的图像 + 翻译指令提示词(如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`),模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: 用例 8「漫画与插画翻译」,场景描述为「将漫画中的文字翻译成其他语言」,来源标注为「知乎变现案例」,提示词明确要求保持原字体风格和布局\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成(融合)\n新增实现方式:\n- **Nano Banana Pro (Gemini 3 Pro Image)**:直接输入提示词,支持 1K/2K/4K 分辨率输出,多种宽高比(1:1 至 21:9),生成速度 8-12 秒,照片级真实感突出(用例 1-3 虚拟网红、专业头像、产品 Mockup)\n\n---\n\n### CAP-003: 图像主体一致性保持(融合)\n新增实现方式:\n- **Nano Banana Pro (Gemini 3 Pro Image)**:原生多图参考(最多 14 张),可输入多张角色/产品参考图,稳定保留主体外观特征;技术规格 3.5 节明确说明「保持角色和品牌一致性」\n\n---\n\n### CAP-011: 工作流自动化与 API 集成(融合)\n新增实现方式:\n- **Nano Banana Pro REST API**:使用 `google-genai` SDK(Python/JS/TS),通过 `client.models.generate_content()` 调用,支持文生图、图像编辑等任务类型的程序化调用;支持 Batch API(50% 折扣);模型 ID:`gemini-3-pro-image-preview`\n\n---\n\n### CAP-013: 实时语境融合生成(融合)\n新增实现方式:\n- **Nano Banana Pro (Gemini 3 Pro Image)**:集成 Google Search 实时检索(Search Grounding),在生成配置中启用 `tools=[{\"google_search\": {}}]`,可获取实时数据并融入图像生成(用例 6「信息图与教育内容」使用实时数据生成准确信息图表)\n\n---\n\n### CAP-014: 图像内文字渲染(融合)\n新增实现方式:\n- **Nano Banana Pro (Gemini 3 Pro Image)**:多语言高保真文本渲染(英文、中文、日文、西班牙文等),支持复杂排版布局,文本准确率 94-96%(竞品对比表数据),显著优于 Midjourney V7(71%)和 DALL-E 3(76-78%);用例 4「社交媒体广告」(`\"bold typography saying '50% OFF'\"`)、用例 5「书籍封面设计」(含标题文字)\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出(融合)\n新增实现方式:\n- **Nano Banana Pro (Gemini 3 Pro Image)**:支持原生 4K 超高分辨率输出($0.24/张),在生成配置中指定 `image_size=\"4K\"`;用例 3「电商产品 Mockup」明确使用 `\"4K resolution\"` 提示词\n\n---\n\n## 发现的能力组合\n\n| 组合场景 | 所用原子能力 |\n|---------|------------|\n| **AI Influencer 创作**(虚拟网红系列图) | CAP-001(文生图)+ CAP-003(角色一致性)+ CAP-016(高分辨率输出) |\n| **书籍封面设计** | CAP-001(文生图)+ CAP-014(文字渲染)+ CAP-004(风格控制) |\n| **社交媒体广告素材** | CAP-001(文生图)+ CAP-014(文字渲染)+ CAP-016(高分辨率输出) |\n| **信息图与教育内容** | CAP-001(文生图)+ CAP-013(实时语境融合)+ CAP-014(文字渲染) |\n| **漫画多语言本地化** | CAP-021(图像内文字翻译与替换)+ CAP-014(文字渲染) |\n| **多人团队合影生成** | CAP-020(多主体场景合成)+ CAP-003(主体一致性保持) |\n| **建筑草图快速可视化** | CAP-019(草图转效果图)+ CAP-016(高分辨率输出)+ CAP-004(风格控制) |\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**:\n - ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n - FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像)\n - Midjourney v8: `/imagine prompt: [描述] --v 8`,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG;提示词遵循性强,默认偏向摄影写实风格,生成速度约 10-15 秒\n - Nano Banana Pro (Gemini 3 Pro Image):直接输入提示词,支持 1K/2K/4K 分辨率输出,多种宽高比(1:1 至 21:9),生成速度 8-12 秒,照片级真实感突出(用例 1-3 虚拟网红、专业头像、产品 Mockup)\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」;Midjourney v8 案例 1-5;Nano Banana Pro 使用介绍 5.1 节基础图像生成示例;用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**:\n - ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n - FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持)\n - Midjourney v8 `--cref`:角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进\n - Nano Banana Pro (Gemini 3 Pro Image):原生多图参考(最多 14 张),可同时上传多张角色/产品参考图,稳定保留主体外观特征;技术规格 3.5 节明确说明「保持角色和品牌一致性」\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」;Midjourney v8 使用介绍 2.3 节高级功能 `--cref`;Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格;或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格(LoRA/参考图/参数描述)一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n - Midjourney v8 `--sref`:风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢\n - Midjourney v8 `--stylize [值]`:控制风格化程度(如 `--stylize 250`),值越高越具艺术风格化;`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA;Midjourney v8 使用介绍 2.2 节参数表(--stylize、--raw);2.3 节高级功能(--sref);案例 4「男士西装设计」使用 `--stylize 250`;案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节(后处理路径,区别于生成阶段直接高清输出的 CAP-016)\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预\n- **实现方式**:\n - ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n - Nano Banana Pro REST API:Batch API 模式(50% 折扣),程序化批量提交生成任务\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧;Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n - ComfyUI REST API:`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n - FLUX.2 [max] REST API:`POST /v1/flux-2-max`(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例\n - Nano Banana Pro REST API:使用 `google-genai` SDK(Python ≥1.52.0 / JS/TS ≥1.30),通过 `client.models.generate_content()` 调用,模型 ID `gemini-3-pro-image-preview`;支持 Batch API(50% 折扣);使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例;Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**:\n - ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流\n - FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景)\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件、实时数据);若无网络搜索能力,同样的提示词将无法生成准确内容\n- **实现方式**:\n - FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果\n - Nano Banana Pro (Gemini 3 Pro Image):在生成配置中启用 `tools=[{\"google_search\": {}}]`(Search Grounding),连接 Google 搜索获取实时数据,可生成准确的信息图表和时事相关图像;使用介绍 3.3 节、5.3 节\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成\n- **来源依据**: FLUX.2 [max] 案例 9「足球比赛结果生成」;FLUX.2 [max] 使用介绍 2.1 节「接地式生成」;Nano Banana Pro 使用介绍 3.3 节「搜索接地(Search Grounding)」及 5.3 节代码示例;用例 6「信息图与教育内容」使用实时数据生成准确图表\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌、广告语等)\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合;多语言文字(中/日/西班牙文等)可正确渲染\n- **实现方式**:\n - FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意仍有偶尔拼写错误,建议对关键文字进行人工校验\n - Midjourney v8:相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;官方教程视频专门讲解文字渲染技巧\n - Nano Banana Pro (Gemini 3 Pro Image):多语言高保真文本渲染(英文、中文、日文、西班牙文等),支持复杂排版布局,文本准确率 94-96%(竞品对比表数据),显著优于 Midjourney V7(71%)和 DALL-E 3(76-78%);使用介绍 3.1 节「完美文本渲染」\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」;案例 7「Logo 设计」;Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」;Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」;竞品对比表文本准确率数据;用例 4「社交媒体广告」(含粗体排版文字)、用例 5「书籍封面设计」(含标题文字)\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)\n- **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `\"将图像做成夜间亮灯的效果\"`),模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再后期放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K(2048px)级别或以上分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹\n- **实现方式**:\n - Midjourney v8: `--hd` 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 `--q 4` 组合使用(总计 16x GPU 成本)\n - FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率\n - Nano Banana Pro (Gemini 3 Pro Image):支持原生 4K 超高分辨率输出($0.24/张),在生成配置中指定 `image_size=\"4K\"`;使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(面料纹理)、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表(`--hd` 原生 2048px);3.2 节输出规格;3.4 节定价说明(HD 模式 4x GPU 成本);案例 4「男士西装设计」展示面料纹理细节;FLUX.2 [max] 使用介绍;Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例;用例 3「电商产品 Mockup」使用 `\"4K resolution\"`\n\n---\n\n### CAP-017: 全向参考(Omni Reference)\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n - Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 `--cref`(专项角色参考)和 `--sref`(专项风格参考)形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能,与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格,无需每次重复描述\n- **判定标准**: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n - Midjourney v8: `--p` 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能\n\n---\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图,在保持原始构图和空间关系的同时,大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致;视觉质量从草图级提升至效果图/写实级;主要结构元素与草图对应,无随意添加或删除\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入手绘草图图片 + 描述目标风格的提示词(如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`),模型自动完成风格升级转换\n - ComfyUI: ControlNet(Canny/Lineart 预处理器)+ KSampler 工作流(侧重从草图到效果图的质量跃升)\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: Nano Banana Pro 用例 9「手绘转效果图」,场景描述为「将草图转换为精美效果图」,提示词明确要求保持原始构图并转换为写实建筑渲染风格;来源标注为「小红书用户案例」\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中,生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体(人物/物体);每个主体的外观特征与其对应参考图一致;各主体在场景中的位置、比例、光照协调自然,整体构图合理\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):支持最多 14 张图片输入,可同时上传多个人物/主体参考图 + 场景描述提示词,模型将所有主体合成到指定场景中(如 `\"Create a team photo of these 8 people in a modern office setting\"`)\n - FLUX.2 [max]:原生多图参考(最多 10 张),可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成(将多人照片合成为统一场景)、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: Nano Banana Pro 用例 10「多角色场景合成」,场景描述为「将多个人物合成到一个场景中」,示例为将 8 人合成到现代办公室团队照中;技术规格 3.5 节「多图像混合:最多支持 14 张图片输入,保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像(如漫画、海报、标牌)中已有的文字内容,将其翻译为目标语言,并在保持原有字体风格、排版布局和图像其余部分不变的前提下,将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确;替换后的文字在字体风格、大小、位置上与原文字高度一致;图像中非文字区域(背景、人物、图形元素)保持不变;整体视觉效果自然,无明显拼接痕迹\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入含文字的图像 + 翻译指令提示词(如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`),模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: Nano Banana Pro 用例 8「漫画与插画翻译」,场景描述为「将漫画中的文字翻译成其他语言」,来源标注为「知乎变现案例」,提示词明确要求保持原字体风格和布局"
  17. },
  18. {
  19. "tool": "Seedream_5.0_Lite",
  20. "response": "# 原子能力清单(更新后)\n\n## 本轮分析\n\n从 Seedream 5.0 Lite 的文档和用例中分析发现:\n\n**新增能力**:无新增原子能力。Seedream 5.0 Lite 的所有核心功能均可映射到已有原子能力框架中。\n\n**融合能力**(共 5 项):\n1. **CAP-001 文本到图像生成** → 补充 Seedream 5.0 Lite 作为新实现方式\n2. **CAP-003 图像主体一致性保持** → 补充 Seedream 5.0 Lite(最多 14 张参考图,一致性 92%)\n3. **CAP-011 工作流自动化与 API 集成** → 补充 Seedream 5.0 Lite REST API\n4. **CAP-012 图像局部重绘** → 补充 Seedream 5.0 Lite 高级编辑(元素删除/修改、背景替换)\n5. **CAP-013 实时语境融合生成** → 补充 Seedream 5.0 Lite 联网检索能力\n\n**未产生新能力的功能说明**:\n- 「Chain-of-Thought 推理」是技术架构特性,不是面向需求的独立能力,其效果体现在提示词遵循性和生成准确性上,归入 CAP-001 的质量描述\n- 「风格迁移」已被 CAP-004 覆盖,但文档中无足够具体的用例细节,暂不融合\n- 「教育内容创作」是 CAP-013(实时信息)+ CAP-001(文生图)的组合场景,不单独成立原子能力\n\n---\n\n## 新增能力\n\n本轮无新增原子能力。\n\n---\n\n## 融合能力\n\n### CAP-001: 文本到图像生成(更新)\n新增实现方式:\n- **Seedream 5.0 Lite**:直接输入提示词,支持文本到图像生成;Chain-of-Thought 推理架构先进行逻辑解析再生成像素,提升提示词遵循性(MagicBench 基准 Prompt Following 维度有显著提升);生成速度 <1.2s(1080p),适合集成到设计工具链;支持 PNG/JPEG 输出;定价 $0.035/张(BytePlus/Replicate)\n\n**来源依据**:Seedream 5.0 Lite 使用介绍 1.2 节核心特性「精准指令理解」;2.1 节「Chain-of-Thought 推理先行架构」;实际用例「技术亮点」第 3 条「强提示词遵循」及第 4 条「轻量化部署」;竞品对比表生成速度数据\n\n---\n\n### CAP-003: 图像主体一致性保持(更新)\n新增实现方式:\n- **Seedream 5.0 Lite**:原生多图参考(最多 14 张),支持人脸特征、色调、风格等高度稳定的一致性保持,官方标注一致性达 92%;适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面等场景\n\n**来源依据**:Seedream 5.0 Lite 使用介绍 1.2 节「图像一致性增强(支持最多 14 张参考图)」;3.3 节「人脸特征、色调、风格等高度稳定」;实际用例第 3 条「多图一致性创作」,场景包含游戏角色多场景展示、品牌营销素材系列、故事板连续画面,一致性达 92%\n\n---\n\n### CAP-011: 工作流自动化与 API 集成(更新)\n新增实现方式:\n- **Seedream 5.0 Lite REST API**:`POST https://api.byteplus.com/v1/seedream`(Bearer Token 认证),JSON 请求体传入 prompt 及参数;支持 BytePlus、Replicate、Together AI、fal.ai 等多平台 API 接入;生成延迟 <1.2s,适合实时集成场景;定价 $0.035/张(BytePlus)\n\n**来源依据**:Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」提供完整 Python 示例代码;1.4 节「平台支持」列出 BytePlus/Replicate/Together AI/fal.ai 等多平台;2.1 节「轻量化部署(延迟 <1.2s)」\n\n---\n\n### CAP-012: 图像局部重绘(更新)\n新增实现方式:\n- **Seedream 5.0 Lite**:高级编辑模式,支持单图编辑,包括局部元素删除/修改、背景随机替换;通过文字描述指定编辑目标,无需手动绘制蒙版\n\n**来源依据**:Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑:支持单图编辑、元素删除/修改、背景随机替换」;实际用例第 4 条「高级图像编辑」,示例包含局部元素删除/修改、背景随机替换\n\n---\n\n### CAP-013: 实时语境融合生成(更新)\n新增实现方式:\n- **Seedream 5.0 Lite**(实时联网检索,官方称「业界首创」):在提示词中描述需要实时信息的场景,模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成;使用介绍 3.1 节及实际用例第 1 条\n\n**来源依据**:Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索(业界首创)」;3.1 节「首次引入联网能力,可获取天气、金价、票房等实时信息」;实际用例第 1 条「实时信息可视化」,示例包含当前天气预报可视化、实时金价走势图、最新票房数据图表;实际用例「技术亮点」第 2 条「实时网络搜索」\n\n---\n\n## 发现的能力组合\n\n- **CAP-013(实时语境融合)+ CAP-001(文生图)= 「教育内容与知识图表生成」**:Seedream 5.0 Lite 用例 2「教育内容创作」,利用深度推理理解教学意图 + 文生图能力,生成科学原理解释图、历史事件时间线、数学公式可视化等教育材料。核心驱动是 CAP-001 的提示词理解能力(Chain-of-Thought 推理提升准确性),可选叠加 CAP-013 获取实时知识。\n\n- **CAP-003(主体一致性)+ CAP-001(文生图)= 「故事板/系列图连续创作」**:Seedream 5.0 Lite 用例 3「多图一致性创作」中的故事板连续画面场景,以多张参考图保持角色/场景一致性,同时在不同场景中生成新图像。\n\n- **CAP-012(局部重绘)+ CAP-003(主体一致性)= 「品牌素材精细化编辑」**:Seedream 5.0 Lite 用例 4「高级图像编辑」中的背景替换 + 品牌一致性保持,先用 CAP-003 生成一致性素材,再用 CAP-012 进行局部调整。\n\n---\n\n## 完整能力清单\n\n### CAP-001: 文本到图像生成\n- **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力\n- **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中\n- **实现方式**:\n - ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流\n - FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像)\n - Midjourney v8: `/imagine prompt: [描述] --v 8`,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG;提示词遵循性强,默认偏向摄影写实风格,生成速度约 10-15 秒\n - Nano Banana Pro (Gemini 3 Pro Image):直接输入提示词,支持 1K/2K/4K 分辨率输出,多种宽高比(1:1 至 21:9),生成速度 8-12 秒,照片级真实感突出(用例 1-3 虚拟网红、专业头像、产品 Mockup)\n - Seedream 5.0 Lite:直接输入提示词,Chain-of-Thought 推理架构先进行逻辑解析再生成像素,提升提示词遵循性(MagicBench 基准 Prompt Following 维度显著提升);生成速度 <1.2s(1080p);支持 PNG/JPEG 输出;定价 $0.035/张\n- **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计\n- **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」;Midjourney v8 案例 1-5;Nano Banana Pro 使用介绍 5.1 节基础图像生成示例;用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」;Seedream 5.0 Lite 使用介绍 1.2 节、2.1 节、实际用例「技术亮点」第 3-4 条\n\n---\n\n### CAP-002: 结构/姿态控制生成\n- **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构\n- **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化\n- **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流\n- **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成\n- **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点\n\n---\n\n### CAP-003: 图像主体一致性保持\n- **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中\n- **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化\n- **实现方式**:\n - ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流\n - FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持)\n - Midjourney v8 `--cref`:角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进\n - Nano Banana Pro (Gemini 3 Pro Image):原生多图参考(最多 14 张),可同时上传多张角色/产品参考图,稳定保留主体外观特征;技术规格 3.5 节明确说明「保持角色和品牌一致性」\n - Seedream 5.0 Lite:原生多图参考(最多 14 张),人脸特征、色调、风格等高度稳定,官方标注一致性达 92%;适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面\n- **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」;Midjourney v8 使用介绍 2.3 节高级功能 `--cref`;Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」;Seedream 5.0 Lite 使用介绍 1.2 节、3.3 节;实际用例第 3 条「多图一致性创作」\n\n---\n\n### CAP-004: 风格切换与风格控制\n- **功能描述**: 通过加载不同的风格模型或风格参数,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格;或通过风格参考图引导生成图像的整体视觉风格\n- **判定标准**: 生成图像的视觉风格与目标风格(LoRA/参考图/参数描述)一致;可在同一内容基础上批量切换多种风格并输出\n- **实现方式**:\n - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA\n - Midjourney v8 `--sref`:风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢\n - Midjourney v8 `--stylize [值]`:控制风格化程度(如 `--stylize 250`),值越高越具艺术风格化;`--raw` 参数获得最低风格化的原始输出\n- **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索、插画风格指定生成\n- **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA;Midjourney v8 使用介绍 2.2 节参数表(--stylize、--raw);2.3 节高级功能(--sref);案例 4「男士西装设计」使用 `--stylize 250`;案例 5「童话城堡插画」通过提示词描述水彩风格\n\n---\n\n### CAP-005: 人脸修复与增强\n- **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题\n- **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然\n- **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景\n- **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理\n- **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点\n\n---\n\n### CAP-006: 图像细节增强与高清放大\n- **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节(后处理路径,区别于生成阶段直接高清输出的 CAP-016)\n- **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致\n- **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出\n- **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大\n- **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点\n\n---\n\n### CAP-007: 图像上色\n- **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像\n- **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出\n- **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流\n- **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色\n- **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理\n\n---\n\n### CAP-008: 批量图像生成\n- **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存\n- **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预\n- **实现方式**:\n - ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流\n - Nano Banana Pro REST API:Batch API 模式(50% 折扣),程序化批量提交生成任务\n- **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验\n- **来源依据**: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧;Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」\n\n---\n\n### CAP-009: AI 动画帧序列生成\n- **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果\n- **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF\n- **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流\n- **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成\n- **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点\n\n---\n\n### CAP-010: 动画帧插值\n- **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然\n- **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊\n- **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流\n- **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强\n- **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅\n\n---\n\n### CAP-011: 工作流自动化与 API 集成\n- **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取\n- **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中\n- **实现方式**:\n - ComfyUI REST API:`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端\n - FLUX.2 [max] REST API:`POST /v1/flux-2-max`(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例\n - Nano Banana Pro REST API:使用 `google-genai` SDK(Python ≥1.52.0 / JS/TS ≥1.30),通过 `client.models.generate_content()` 调用,模型 ID `gemini-3-pro-image-preview`;支持 Batch API(50% 折扣);使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例\n - Seedream 5.0 Lite REST API:`POST https://api.byteplus.com/v1/seedream`(Bearer Token 认证),JSON 请求体传入 prompt 及参数;支持 BytePlus、Replicate、Together AI、fal.ai 等多平台接入;生成延迟 <1.2s,适合实时集成场景;定价 $0.035/张\n- **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线\n- **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例;Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例;Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」Python 示例、1.4 节「平台支持」、2.1 节「轻量化部署」\n\n---\n\n### CAP-012: 图像局部重绘\n- **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展\n- **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变\n- **实现方式**:\n - ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流\n - FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景)\n - Seedream 5.0 Lite:高级编辑模式,支持单图编辑,包括局部元素删除/修改、背景随机替换;通过文字描述指定编辑目标,无需手动绘制蒙版\n- **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全\n- **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」;Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑」;实际用例第 4 条「高级图像编辑」,示例包含局部元素删除/修改、背景随机替换\n\n---\n\n### CAP-013: 实时语境融合生成\n- **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致\n- **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件、实时数据);若无网络搜索能力,同样的提示词将无法生成准确内容\n- **实现方式**:\n - FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果\n - Nano Banana Pro (Gemini 3 Pro Image):在生成配置中启用 `tools=[{\"google_search\": {}}]`(Search Grounding),连接 Google 搜索获取实时数据,可生成准确的信息图表和时事相关图像;使用介绍 3.3 节、5.3 节\n - Seedream 5.0 Lite:实时联网检索(官方称「业界首创」),在提示词中描述需要实时信息的场景,模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成;使用介绍 3.1 节\n- **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成、天气预报可视化、金融数据图表\n- **来源依据**: FLUX.2 [max] 案例 9「足球比赛结果生成」;FLUX.2 [max] 使用介绍 2.1 节「接地式生成」;Nano Banana Pro 使用介绍 3.3 节「搜索接地(Search Grounding)」及 5.3 节代码示例;用例 6「信息图与教育内容」;Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索」、3.1 节详细说明;实际用例第 1 条「实时信息可视化」(天气预报、金价走势图、票房数据图表)及「技术亮点」第 2 条\n\n---\n\n### CAP-014: 图像内文字渲染\n- **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌、广告语等)\n- **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合;多语言文字(中/日/西班牙文等)可正确渲染\n- **实现方式**:\n - FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意仍有偶尔拼写错误,建议对关键文字进行人工校验\n - Midjourney v8:相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;官方教程视频专门讲解文字渲染技巧\n - Nano Banana Pro (Gemini 3 Pro Image):多语言高保真文本渲染(英文、中文、日文、西班牙文等),支持复杂排版布局,文本准确率 94-96%(竞品对比表数据),显著优于 Midjourney V7(71%)和 DALL-E 3(76-78%);使用介绍 3.1 节「完美文本渲染」\n- **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染\n- **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」;案例 7「Logo 设计」;Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」;Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」;竞品对比表文本准确率数据;用例 4「社交媒体广告」(含粗体排版文字)、用例 5「书籍封面设计」(含标题文字)\n\n---\n\n### CAP-015: 场景光照/时段转换\n- **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围\n- **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)\n- **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `\"将图像做成夜间亮灯的效果\"`),模型自动完成全局光照语义转换\n- **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整\n- **来源依据**: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变\n\n---\n\n### CAP-016: 生成阶段原生高分辨率输出\n- **功能描述**: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再后期放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径\n- **判定标准**: 生成图像在原始输出阶段即达到 2K(2048px)级别或以上分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹\n- **实现方式**:\n - Midjourney v8: `--hd` 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 `--q 4` 组合使用(总计 16x GPU 成本)\n - FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率\n - Nano Banana Pro (Gemini 3 Pro Image):支持原生 4K 超高分辨率输出($0.24/张),在生成配置中指定 `image_size=\"4K\"`;使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例\n- **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(面料纹理)、建筑效果图高清直出、产品摄影级图像生成\n- **来源依据**: Midjourney v8 使用介绍 2.2 节参数表(`--hd` 原生 2048px);3.2 节输出规格;3.4 节定价说明(HD 模式 4x GPU 成本);案例 4「男士西装设计」展示面料纹理细节;FLUX.2 [max] 使用介绍;Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例;用例 3「电商产品 Mockup」使用 `\"4K resolution\"`\n\n---\n\n### CAP-017: 全向参考(Omni Reference)\n- **功能描述**: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束\n- **判定标准**: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高\n- **实现方式**:\n - Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 `--cref`(专项角色参考)和 `--sref`(专项风格参考)形成能力互补\n- **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能,与 `--sref` 和 `--cref` 并列\n\n---\n\n### CAP-018: 个人化风格持久化\n- **功能描述**: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格,无需每次重复描述\n- **判定标准**: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出\n- **实现方式**:\n - Midjourney v8: `--p` 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向\n- **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格\n- **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能\n\n---\n\n### CAP-019: 草图/手绘转效果图\n- **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图,在保持原始构图和空间关系的同时,大幅提升视觉质量和细节丰富度\n- **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致;视觉质量从草图级提升至效果图/写实级;主要结构元素与草图对应,无随意添加或删除\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入手绘草图图片 + 描述目标风格的提示词(如 `\"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition\"`),模型自动完成风格升级转换\n - ComfyUI: ControlNet(Canny/Lineart 预处理器)+ KSampler 工作流(侧重从草图到效果图的质量跃升)\n- **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图\n- **来源依据**: Nano Banana Pro 用例 9「手绘转效果图」,场景描述为「将草图转换为精美效果图」,提示词明确要求保持原始构图并转换为写实建筑渲染风格;来源标注为「小红书用户案例」\n\n---\n\n### CAP-020: 多主体场景合成\n- **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中,生成包含所有指定主体且各自外观特征保持一致的群体场景图\n- **判定标准**: 生成图像中包含所有指定的主体(人物/物体);每个主体的外观特征与其对应参考图一致;各主体在场景中的位置、比例、光照协调自然,整体构图合理\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):支持最多 14 张图片输入,可同时上传多个人物/主体参考图 + 场景描述提示词,模型将所有主体合成到指定场景中(如 `\"Create a team photo of these 8 people in a modern office setting\"`)\n - FLUX.2 [max]:原生多图参考(最多 10 张),可输入多个主体参考图进行合成\n- **典型场景**: 团队合影生成(将多人照片合成为统一场景)、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图\n- **来源依据**: Nano Banana Pro 用例 10「多角色场景合成」,场景描述为「将多个人物合成到一个场景中」,示例为将 8 人合成到现代办公室团队照中;技术规格 3.5 节「多图像混合:最多支持 14 张图片输入,保持角色和品牌一致性」\n\n---\n\n### CAP-021: 图像内文字翻译与替换\n- **功能描述**: 识别图像(如漫画、海报、标牌)中已有的文字内容,将其翻译为目标语言,并在保持原有字体风格、排版布局和图像其余部分不变的前提下,将翻译后的文字替换回图像中\n- **判定标准**: 翻译后的文字内容语义准确;替换后的文字在字体风格、大小、位置上与原文字高度一致;图像中非文字区域(背景、人物、图形元素)保持不变;整体视觉效果自然,无明显拼接痕迹\n- **实现方式**:\n - Nano Banana Pro (Gemini 3 Pro Image):输入含文字的图像 + 翻译指令提示词(如 `\"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout\"`),模型同时完成识别、翻译和视觉替换\n- **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换\n- **来源依据**: Nano Banana Pro 用例 8「漫画与插画翻译」,场景描述为「将漫画中的文字翻译成其他语言」,来源标注为「知乎变现案例」,提示词明确要求保持原字体风格和布局"
  21. }
  22. ]