### CAP-001: 文本到图像生成 - **功能描述**: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力 - **判定标准**: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中 - **实现方式**: - ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流 - FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像) - Midjourney v8: `/imagine prompt: [描述] --v 8`,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG;提示词遵循性强,默认偏向摄影写实风格,生成速度约 10-15 秒 - Nano Banana Pro (Gemini 3 Pro Image):直接输入提示词,支持 1K/2K/4K 分辨率输出,多种宽高比(1:1 至 21:9),生成速度 8-12 秒,照片级真实感突出(用例 1-3 虚拟网红、专业头像、产品 Mockup) - Seedream 5.0 Lite:直接输入提示词,Chain-of-Thought 推理架构先进行逻辑解析再生成像素,提升提示词遵循性(MagicBench 基准 Prompt Following 维度显著提升);生成速度 <1.2s(1080p);支持 PNG/JPEG 输出;定价 $0.035/张 - **典型场景**: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计 - **来源依据**: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」;Midjourney v8 案例 1-5;Nano Banana Pro 使用介绍 5.1 节基础图像生成示例;用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」;Seedream 5.0 Lite 使用介绍 1.2 节、2.1 节、实际用例「技术亮点」第 3-4 条 --- ### CAP-002: 结构/姿态控制生成 - **功能描述**: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构 - **判定标准**: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化 - **实现方式**: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流 - **典型场景**: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成 - **来源依据**: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点 --- ### CAP-003: 图像主体一致性保持 - **功能描述**: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中 - **判定标准**: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化 - **实现方式**: - ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流 - FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持) - Midjourney v8 `--cref`:角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进 - Nano Banana Pro (Gemini 3 Pro Image):原生多图参考(最多 14 张),可同时上传多张角色/产品参考图,稳定保留主体外观特征;技术规格 3.5 节明确说明「保持角色和品牌一致性」 - Seedream 5.0 Lite:原生多图参考(最多 14 张),人脸特征、色调、风格等高度稳定,官方标注一致性达 92%;适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面 - **典型场景**: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成 - **来源依据**: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」;Midjourney v8 使用介绍 2.3 节高级功能 `--cref`;Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」;Seedream 5.0 Lite 使用介绍 1.2 节、3.3 节;实际用例第 3 条「多图一致性创作」 --- ### CAP-004: 风格切换与风格控制 - **功能描述**: 通过加载不同的风格模型或风格参数,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格;或通过风格参考图引导生成图像的整体视觉风格 - **判定标准**: 生成图像的视觉风格与目标风格(LoRA/参考图/参数描述)一致;可在同一内容基础上批量切换多种风格并输出 - **实现方式**: - ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA - Midjourney v8 `--sref`:风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢 - Midjourney v8 `--stylize [值]`:控制风格化程度(如 `--stylize 250`),值越高越具艺术风格化;`--raw` 参数获得最低风格化的原始输出 - **典型场景**: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索、插画风格指定生成 - **来源依据**: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA;Midjourney v8 使用介绍 2.2 节参数表(--stylize、--raw);2.3 节高级功能(--sref);案例 4「男士西装设计」使用 `--stylize 250`;案例 5「童话城堡插画」通过提示词描述水彩风格 --- ### CAP-005: 人脸修复与增强 - **功能描述**: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题 - **判定标准**: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然 - **实现方式**: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景 - **典型场景**: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理 - **来源依据**: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点 --- ### CAP-006: 图像细节增强与高清放大 - **功能描述**: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节(后处理路径,区别于生成阶段直接高清输出的 CAP-016) - **判定标准**: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致 - **实现方式**: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出 - **典型场景**: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大 - **来源依据**: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点 --- ### CAP-007: 图像上色 - **功能描述**: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像 - **判定标准**: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出 - **实现方式**: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流 - **典型场景**: 老照片上色、历史图像彩色化、黑白素描上色 - **来源依据**: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理 --- ### CAP-008: 批量图像生成 - **功能描述**: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存 - **判定标准**: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预 - **实现方式**: - ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流 - Nano Banana Pro REST API:Batch API 模式(50% 折扣),程序化批量提交生成任务 - **典型场景**: 电商产品多背景批量出图、数据集批量生成、多参数对比实验 - **来源依据**: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧;Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」 --- ### CAP-009: AI 动画帧序列生成 - **功能描述**: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果 - **判定标准**: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF - **实现方式**: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流 - **典型场景**: 短视频动画制作、角色动作演示、AI 动态壁纸生成 - **来源依据**: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点 --- ### CAP-010: 动画帧插值 - **功能描述**: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然 - **判定标准**: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊 - **实现方式**: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流 - **典型场景**: AI 动画流畅度提升、低帧率视频补帧、动态效果增强 - **来源依据**: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅 --- ### CAP-011: 工作流自动化与 API 集成 - **功能描述**: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取 - **判定标准**: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中 - **实现方式**: - ComfyUI REST API:`POST /prompt` 提交任务 + `GET /history/{id}` 查询结果 + `GET /queue` 队列管理 + Python/任意语言客户端 - FLUX.2 [max] REST API:`POST /v1/flux-2-max`(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例 - Nano Banana Pro REST API:使用 `google-genai` SDK(Python ≥1.52.0 / JS/TS ≥1.30),通过 `client.models.generate_content()` 调用,模型 ID `gemini-3-pro-image-preview`;支持 Batch API(50% 折扣);使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例 - Seedream 5.0 Lite REST API:`POST https://api.byteplus.com/v1/seedream`(Bearer Token 认证),JSON 请求体传入 prompt 及参数;支持 BytePlus、Replicate、Together AI、fal.ai 等多平台接入;生成延迟 <1.2s,适合实时集成场景;定价 $0.035/张 - **典型场景**: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线 - **来源依据**: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例;Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例;Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」Python 示例、1.4 节「平台支持」、2.1 节「轻量化部署」 --- ### CAP-012: 图像局部重绘 - **功能描述**: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展 - **判定标准**: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变 - **实现方式**: - ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流 - FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景) - Seedream 5.0 Lite:高级编辑模式,支持单图编辑,包括局部元素删除/修改、背景随机替换;通过文字描述指定编辑目标,无需手动绘制蒙版 - **典型场景**: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全 - **来源依据**: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」;Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑」;实际用例第 4 条「高级图像编辑」,示例包含局部元素删除/修改、背景随机替换 --- ### CAP-013: 实时语境融合生成 - **功能描述**: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致 - **判定标准**: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件、实时数据);若无网络搜索能力,同样的提示词将无法生成准确内容 - **实现方式**: - FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果 - Nano Banana Pro (Gemini 3 Pro Image):在生成配置中启用 `tools=[{"google_search": {}}]`(Search Grounding),连接 Google 搜索获取实时数据,可生成准确的信息图表和时事相关图像;使用介绍 3.3 节、5.3 节 - Seedream 5.0 Lite:实时联网检索(官方称「业界首创」),在提示词中描述需要实时信息的场景,模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成;使用介绍 3.1 节 - **典型场景**: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成、天气预报可视化、金融数据图表 - **来源依据**: FLUX.2 [max] 案例 9「足球比赛结果生成」;FLUX.2 [max] 使用介绍 2.1 节「接地式生成」;Nano Banana Pro 使用介绍 3.3 节「搜索接地(Search Grounding)」及 5.3 节代码示例;用例 6「信息图与教育内容」;Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索」、3.1 节详细说明;实际用例第 1 条「实时信息可视化」(天气预报、金价走势图、票房数据图表)及「技术亮点」第 2 条 --- ### CAP-014: 图像内文字渲染 - **功能描述**: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌、广告语等) - **判定标准**: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合;多语言文字(中/日/西班牙文等)可正确渲染 - **实现方式**: - FLUX.2 [max]:在提示词中直接指定文字内容(如 `labeled 'AQUA LAGER'`),模型原生支持文字渲染;注意仍有偶尔拼写错误,建议对关键文字进行人工校验 - Midjourney v8:相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;官方教程视频专门讲解文字渲染技巧 - Nano Banana Pro (Gemini 3 Pro Image):多语言高保真文本渲染(英文、中文、日文、西班牙文等),支持复杂排版布局,文本准确率 94-96%(竞品对比表数据),显著优于 Midjourney V7(71%)和 DALL-E 3(76-78%);使用介绍 3.1 节「完美文本渲染」 - **典型场景**: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染 - **来源依据**: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」;案例 7「Logo 设计」;Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」;Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」;竞品对比表文本准确率数据;用例 4「社交媒体广告」(含粗体排版文字)、用例 5「书籍封面设计」(含标题文字) --- ### CAP-015: 场景光照/时段转换 - **功能描述**: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围 - **判定标准**: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理) - **实现方式**: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 `"将图像做成夜间亮灯的效果"`),模型自动完成全局光照语义转换 - **典型场景**: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整 - **来源依据**: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变 --- ### CAP-016: 生成阶段原生高分辨率输出 - **功能描述**: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再后期放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径 - **判定标准**: 生成图像在原始输出阶段即达到 2K(2048px)级别或以上分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹 - **实现方式**: - Midjourney v8: `--hd` 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 `--q 4` 组合使用(总计 16x GPU 成本) - FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率 - Nano Banana Pro (Gemini 3 Pro Image):支持原生 4K 超高分辨率输出($0.24/张),在生成配置中指定 `image_size="4K"`;使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例 - **典型场景**: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(面料纹理)、建筑效果图高清直出、产品摄影级图像生成 - **来源依据**: Midjourney v8 使用介绍 2.2 节参数表(`--hd` 原生 2048px);3.2 节输出规格;3.4 节定价说明(HD 模式 4x GPU 成本);案例 4「男士西装设计」展示面料纹理细节;FLUX.2 [max] 使用介绍;Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例;用例 3「电商产品 Mockup」使用 `"4K resolution"` --- ### CAP-017: 全向参考(Omni Reference) - **功能描述**: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束 - **判定标准**: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高 - **实现方式**: - Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 `--cref`(专项角色参考)和 `--sref`(专项风格参考)形成能力互补 - **典型场景**: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作 - **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能,与 `--sref` 和 `--cref` 并列 --- ### CAP-018: 个人化风格持久化 - **功能描述**: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格,无需每次重复描述 - **判定标准**: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出 - **实现方式**: - Midjourney v8: `--p` 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向 - **典型场景**: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格 - **来源依据**: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能 --- ### CAP-019: 草图/手绘转效果图 - **功能描述**: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图,在保持原始构图和空间关系的同时,大幅提升视觉质量和细节丰富度 - **判定标准**: 输出效果图的构图、空间布局与输入草图保持一致;视觉质量从草图级提升至效果图/写实级;主要结构元素与草图对应,无随意添加或删除 - **实现方式**: - Nano Banana Pro (Gemini 3 Pro Image):输入手绘草图图片 + 描述目标风格的提示词(如 `"Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition"`),模型自动完成风格升级转换 - ComfyUI: ControlNet(Canny/Lineart 预处理器)+ KSampler 工作流(侧重从草图到效果图的质量跃升) - **典型场景**: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图 - **来源依据**: Nano Banana Pro 用例 9「手绘转效果图」,场景描述为「将草图转换为精美效果图」,提示词明确要求保持原始构图并转换为写实建筑渲染风格;来源标注为「小红书用户案例」 --- ### CAP-020: 多主体场景合成 - **功能描述**: 将多个独立的人物、角色或物体参考图像合成到同一个场景中,生成包含所有指定主体且各自外观特征保持一致的群体场景图 - **判定标准**: 生成图像中包含所有指定的主体(人物/物体);每个主体的外观特征与其对应参考图一致;各主体在场景中的位置、比例、光照协调自然,整体构图合理 - **实现方式**: - Nano Banana Pro (Gemini 3 Pro Image):支持最多 14 张图片输入,可同时上传多个人物/主体参考图 + 场景描述提示词,模型将所有主体合成到指定场景中(如 `"Create a team photo of these 8 people in a modern office setting"`) - FLUX.2 [max]:原生多图参考(最多 10 张),可输入多个主体参考图进行合成 - **典型场景**: 团队合影生成(将多人照片合成为统一场景)、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图 - **来源依据**: Nano Banana Pro 用例 10「多角色场景合成」,场景描述为「将多个人物合成到一个场景中」,示例为将 8 人合成到现代办公室团队照中;技术规格 3.5 节「多图像混合:最多支持 14 张图片输入,保持角色和品牌一致性」 --- ### CAP-021: 图像内文字翻译与替换 - **功能描述**: 识别图像(如漫画、海报、标牌)中已有的文字内容,将其翻译为目标语言,并在保持原有字体风格、排版布局和图像其余部分不变的前提下,将翻译后的文字替换回图像中 - **判定标准**: 翻译后的文字内容语义准确;替换后的文字在字体风格、大小、位置上与原文字高度一致;图像中非文字区域(背景、人物、图形元素)保持不变;整体视觉效果自然,无明显拼接痕迹 - **实现方式**: - Nano Banana Pro (Gemini 3 Pro Image):输入含文字的图像 + 翻译指令提示词(如 `"Translate all text in this comic panel from English to Japanese, maintain the original font style and layout"`),模型同时完成识别、翻译和视觉替换 - **典型场景**: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换 - **来源依据**: Nano Banana Pro 用例 8「漫画与插画翻译」,场景描述为「将漫画中的文字翻译成其他语言」,来源标注为「知乎变现案例」,提示词明确要求保持原字体风格和布局