atomic_capabilities.md 26 KB

CAP-001: 文本到图像生成

  • 功能描述: 根据文字描述(正向/反向提示词)生成对应图像,是最基础的 AI 图像生成能力
  • 判定标准: 生成图像在内容、风格、构图上与提示词描述一致;反向提示词中的元素未出现在图像中
  • 实现方式:
    • ComfyUI: CheckpointLoader + CLIPTextEncode(正/负)+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流
    • FLUX.2 [max]:直接输入提示词,支持最高 32K tokens、4MP 输出,照片级真实感突出(案例 4 老渔夫肖像)
    • Midjourney v8: /imagine prompt: [描述] --v 8,支持最多 4000 字符提示词,多语言输入(英文效果最佳),默认输出 4 张 1024x1024 PNG;提示词遵循性强,默认偏向摄影写实风格,生成速度约 10-15 秒
    • Nano Banana Pro (Gemini 3 Pro Image):直接输入提示词,支持 1K/2K/4K 分辨率输出,多种宽高比(1:1 至 21:9),生成速度 8-12 秒,照片级真实感突出(用例 1-3 虚拟网红、专业头像、产品 Mockup)
    • Seedream 5.0 Lite:直接输入提示词,Chain-of-Thought 推理架构先进行逻辑解析再生成像素,提升提示词遵循性(MagicBench 基准 Prompt Following 维度显著提升);生成速度 <1.2s(1080p);支持 PNG/JPEG 输出;定价 $0.035/张
  • 典型场景: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计
  • 来源依据: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建(6 步)」;案例 5「建筑效果图快速出图」;FLUX.2 [max] 案例 4「老渔夫肖像」;Midjourney v8 案例 1-5;Nano Banana Pro 使用介绍 5.1 节基础图像生成示例;用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」;Seedream 5.0 Lite 使用介绍 1.2 节、2.1 节、实际用例「技术亮点」第 3-4 条

CAP-002: 结构/姿态控制生成

  • 功能描述: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件,控制生成图像的构图、姿态或空间结构
  • 判定标准: 生成图像的主体姿态/空间结构与输入的控制图高度吻合;在保持结构约束的同时,图像内容/风格可自由变化
  • 实现方式: ComfyUI: ControlNet 节点(Advanced-ControlNet 自定义节点)+ 预处理器节点(OpenPose/Canny/Depth 等)+ KSampler 工作流
  • 典型场景: 游戏角色多视图生成(控制正/侧/背面姿态)、建筑线稿转效果图、人物姿态指定生成
  • 来源依据: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态;案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入;使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点

CAP-003: 图像主体一致性保持

  • 功能描述: 以参考图像为输入,在生成新图像时保持参考图中主体(产品、角色、物体)的外观特征不变,使其出现在不同背景、场景或构图中
  • 判定标准: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致;背景/场景可以自由变化
  • 实现方式:
    • ComfyUI: IP-Adapter 节点(IPAdapter 自定义节点包)+ 参考图输入 + KSampler 工作流
    • FLUX.2 [max]:原生多图参考(最多 10 张),稳定保留人物面部特征、身体比例、表情特点(案例 5 角色一致性保持)
    • Midjourney v8 --cref:角色参考参数,上传角色参考图后生成保持该角色外观特征的新图像;v8 相比 v7 在解剖结构(尤其手部)和角色一致性方面有明显改进
    • Nano Banana Pro (Gemini 3 Pro Image):原生多图参考(最多 14 张),可同时上传多张角色/产品参考图,稳定保留主体外观特征;技术规格 3.5 节明确说明「保持角色和品牌一致性」
    • Seedream 5.0 Lite:原生多图参考(最多 14 张),人脸特征、色调、风格等高度稳定,官方标注一致性达 92%;适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面
  • 典型场景: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成
  • 来源依据: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter;FLUX.2 [max] 案例 5「角色一致性保持」;Midjourney v8 使用介绍 2.3 节高级功能 --cref;Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」;Seedream 5.0 Lite 使用介绍 1.2 节、3.3 节;实际用例第 3 条「多图一致性创作」

CAP-004: 风格切换与风格控制

  • 功能描述: 通过加载不同的风格模型或风格参数,在保持内容/结构基本不变的前提下,将图像渲染为指定的艺术风格;或通过风格参考图引导生成图像的整体视觉风格
  • 判定标准: 生成图像的视觉风格与目标风格(LoRA/参考图/参数描述)一致;可在同一内容基础上批量切换多种风格并输出
  • 实现方式:
    • ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流;批量切换时使用循环/批处理节点遍历多个 LoRA
    • Midjourney v8 --sref:风格参考参数,上传风格参考图,生成图像的视觉风格向参考图靠拢
    • Midjourney v8 --stylize [值]:控制风格化程度(如 --stylize 250),值越高越具艺术风格化;--raw 参数获得最低风格化的原始输出
  • 典型场景: 建筑效果图多风格出图(现代/古典/工业)、角色多风格概念图、品牌视觉风格探索、插画风格指定生成
  • 来源依据: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA;Midjourney v8 使用介绍 2.2 节参数表(--stylize、--raw);2.3 节高级功能(--sref);案例 4「男士西装设计」使用 --stylize 250;案例 5「童话城堡插画」通过提示词描述水彩风格

CAP-005: 人脸修复与增强

  • 功能描述: 对图像中的人脸区域进行专项修复和增强,解决人脸模糊、变形、细节缺失等问题
  • 判定标准: 修复后人脸清晰度显著提升;五官比例自然,无明显 AI 变形痕迹;与图像其他区域融合自然
  • 实现方式: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流;ReActor 节点用于换脸场景
  • 典型场景: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理
  • 来源依据: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复;使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点

CAP-006: 图像细节增强与高清放大

  • 功能描述: 对已生成的图像进行分辨率提升和细节增强,在放大的同时补充高频细节(后处理路径,区别于生成阶段直接高清输出的 CAP-016)
  • 判定标准: 放大后图像分辨率显著提升(如 2x/4x);细节更丰富,无明显模糊或锯齿;整体风格与原图一致
  • 实现方式: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流;大图使用 Tiled VAE 节点避免显存溢出
  • 典型场景: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大
  • 来源依据: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强;案例 5「建筑效果图快速出图」使用高清修复提升细节;使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点

CAP-007: 图像上色

  • 功能描述: 将黑白或低饱和度的图像自动上色,生成色彩自然、符合语义的彩色图像
  • 判定标准: 上色结果色彩自然,符合图像内容的语义(皮肤、天空、植物颜色合理);无明显色块错误或颜色溢出
  • 实现方式: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流
  • 典型场景: 老照片上色、历史图像彩色化、黑白素描上色
  • 来源依据: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理

CAP-008: 批量图像生成

  • 功能描述: 在单次工作流执行中,通过批处理机制自动循环生成大量图像(不同背景、不同参数、不同种子等),并自动命名保存
  • 判定标准: 单次执行可生成 N 张图像(N 可配置);每张图像按预设规则变化;自动保存并按规则命名,无需人工干预
  • 实现方式:
    • ComfyUI: 批处理循环节点 + EmptyLatentImage(batch_size 参数)+ 多模板输入列表 + SaveImage 自动命名工作流
    • Nano Banana Pro REST API:Batch API 模式(50% 折扣),程序化批量提交生成任务
  • 典型场景: 电商产品多背景批量出图、数据集批量生成、多参数对比实验
  • 来源依据: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图;使用介绍 4.2 节提及 batch_size 性能优化技巧;Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」

CAP-009: AI 动画帧序列生成

  • 功能描述: 基于文本描述或参考图像,生成具有时间连贯性的动画帧序列,使内容产生动态运动效果
  • 判定标准: 生成的帧序列在内容上连贯,运动自然无明显跳变;帧与帧之间的角色/场景保持一致性;可导出为视频或 GIF
  • 实现方式: ComfyUI: AnimateDiff 自定义节点 + ControlNet(保持角色一致性)+ KSampler + 视频合成节点工作流
  • 典型场景: 短视频动画制作、角色动作演示、AI 动态壁纸生成
  • 来源依据: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画,结合 ControlNet 保持角色一致性;使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点

CAP-010: 动画帧插值

  • 功能描述: 在已有动画帧之间插入过渡帧,提升动画的流畅度和帧率,使运动更加平滑自然
  • 判定标准: 插值后帧率显著提升(如从 8fps 到 24fps);插入的过渡帧与相邻帧在内容和运动上自然衔接;无明显鬼影或模糊
  • 实现方式: ComfyUI: RIFE 节点(或类似帧插值节点)+ 帧序列输入 + 视频输出工作流
  • 典型场景: AI 动画流畅度提升、低帧率视频补帧、动态效果增强
  • 来源依据: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值,使动画更流畅

CAP-011: 工作流自动化与 API 集成

  • 功能描述: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中,实现程序化调用、任务队列管理和结果获取
  • 判定标准: 外部程序可通过 API 提交生成任务并获取结果;支持异步任务状态查询;可集成到业务系统或 CI/CD 流程中
  • 实现方式:
    • ComfyUI REST API:POST /prompt 提交任务 + GET /history/{id} 查询结果 + GET /queue 队列管理 + Python/任意语言客户端
    • FLUX.2 [max] REST API:POST /v1/flux-2-max(x-key Header 认证),支持文生图、图像编辑、填充等任务类型的程序化调用;使用介绍 4.2 节提供完整端点示例
    • Nano Banana Pro REST API:使用 google-genai SDK(Python ≥1.52.0 / JS/TS ≥1.30),通过 client.models.generate_content() 调用,模型 ID gemini-3-pro-image-preview;支持 Batch API(50% 折扣);使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例
    • Seedream 5.0 Lite REST API:POST https://api.byteplus.com/v1/seedream(Bearer Token 认证),JSON 请求体传入 prompt 及参数;支持 BytePlus、Replicate、Together AI、fal.ai 等多平台接入;生成延迟 <1.2s,适合实时集成场景;定价 $0.035/张
  • 典型场景: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线
  • 来源依据: ComfyUI 使用介绍第 3.4 节「API 接口」;FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例;Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例;Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」Python 示例、1.4 节「平台支持」、2.1 节「轻量化部署」

CAP-012: 图像局部重绘

  • 功能描述: 对图像的指定区域进行重新生成,保持其余区域不变,实现局部内容的替换、修复或扩展
  • 判定标准: 重绘区域内容按提示词生成,与周围区域在光照、风格、边缘上自然融合;非重绘区域像素保持不变
  • 实现方式:
    • ComfyUI: VAE Encode(inpaint 模式)+ 蒙版输入(Mask)+ KSampler(denoise 参数控制重绘强度)+ VAEDecode 工作流
    • FLUX.2 [max]:图像编辑模式,输入原图 + 文字描述目标变化,无需手动绘制蒙版,支持物体替换(案例 1:台灯替换,自动调整角度)、物体移除(案例 3:去除吊灯并自然修复背景)
    • Seedream 5.0 Lite:高级编辑模式,支持单图编辑,包括局部元素删除/修改、背景随机替换;通过文字描述指定编辑目标,无需手动绘制蒙版
  • 典型场景: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全
  • 来源依据: ComfyUI 使用介绍第 1.3 节功能介绍;FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」;Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑」;实际用例第 4 条「高级图像编辑」,示例包含局部元素删除/修改、背景随机替换

CAP-013: 实时语境融合生成

  • 功能描述: 在生成图像时,模型自动执行实时网络搜索,获取当前最新的事件、数据、状态等语境信息,并将其融入生成结果,使图像内容与现实世界的最新状态保持一致
  • 判定标准: 生成图像中包含了提示词所指向的真实世界最新信息(如比赛结果、当前事件、实时数据);若无网络搜索能力,同样的提示词将无法生成准确内容
  • 实现方式:
    • FLUX.2 [max](Grounded Generation,仅此模型独有):直接在提示词中描述需要实时信息的场景,模型自动触发网络搜索并融合结果
    • Nano Banana Pro (Gemini 3 Pro Image):在生成配置中启用 tools=[{"google_search": {}}](Search Grounding),连接 Google 搜索获取实时数据,可生成准确的信息图表和时事相关图像;使用介绍 3.3 节、5.3 节
    • Seedream 5.0 Lite:实时联网检索(官方称「业界首创」),在提示词中描述需要实时信息的场景,模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成;使用介绍 3.1 节
  • 典型场景: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成、天气预报可视化、金融数据图表
  • 来源依据: FLUX.2 [max] 案例 9「足球比赛结果生成」;FLUX.2 [max] 使用介绍 2.1 节「接地式生成」;Nano Banana Pro 使用介绍 3.3 节「搜索接地(Search Grounding)」及 5.3 节代码示例;用例 6「信息图与教育内容」;Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索」、3.1 节详细说明;实际用例第 1 条「实时信息可视化」(天气预报、金价走势图、票房数据图表)及「技术亮点」第 2 条

CAP-014: 图像内文字渲染

  • 功能描述: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容,使文字作为图像视觉元素的一部分自然呈现(如产品标签、Logo 文字、标牌、广告语等)
  • 判定标准: 图像中的文字内容与提示词指定的文字一致;文字清晰可读,无明显拼写错误;文字与图像整体风格和场景自然融合;多语言文字(中/日/西班牙文等)可正确渲染
  • 实现方式:
    • FLUX.2 [max]:在提示词中直接指定文字内容(如 labeled 'AQUA LAGER'),模型原生支持文字渲染;注意仍有偶尔拼写错误,建议对关键文字进行人工校验
    • Midjourney v8:相比前代版本有「改进的文本渲染」(核心特性之一),在提示词中直接描述需要渲染的文字内容;官方教程视频专门讲解文字渲染技巧
    • Nano Banana Pro (Gemini 3 Pro Image):多语言高保真文本渲染(英文、中文、日文、西班牙文等),支持复杂排版布局,文本准确率 94-96%(竞品对比表数据),显著优于 Midjourney V7(71%)和 DALL-E 3(76-78%);使用介绍 3.1 节「完美文本渲染」
  • 典型场景: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染
  • 来源依据: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」;案例 7「Logo 设计」;Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」;Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」;竞品对比表文本准确率数据;用例 4「社交媒体广告」(含粗体排版文字)、用例 5「书籍封面设计」(含标题文字)

CAP-015: 场景光照/时段转换

  • 功能描述: 对已有图像进行全局语义级的光照条件或时段氛围转换(如白天→夜晚、晴天→阴雨、自然光→人工照明),在保持场景结构和主体不变的前提下,整体改变图像的光照氛围
  • 判定标准: 转换后图像的光照/时段氛围与目标描述一致;场景的空间结构、家具布局、主体形态保持不变;光照变化在整个画面中物理上自洽(如夜间场景中灯光投影合理)
  • 实现方式: FLUX.2 [max]:图像编辑模式,输入原图 + 描述目标光照/时段的提示词(如 "将图像做成夜间亮灯的效果"),模型自动完成全局光照语义转换
  • 典型场景: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整
  • 来源依据: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」,成功将白天室内场景转换为夜间亮灯效果,场景结构保持不变

CAP-016: 生成阶段原生高分辨率输出

  • 功能描述: 在图像生成阶段直接输出高分辨率图像(而非先生成低分辨率再后期放大),使生成结果在细节密度、结构完整性上优于先生成后放大的路径
  • 判定标准: 生成图像在原始输出阶段即达到 2K(2048px)级别或以上分辨率;图像细节(如面料纹理、建筑线条、人物五官)在原生尺寸下清晰完整,无放大插值痕迹
  • 实现方式:
    • Midjourney v8: --hd 参数,原生输出 2048px,最大宽高比 4:1(HD 模式),GPU 成本为标准的 4 倍;可与 --q 4 组合使用(总计 16x GPU 成本)
    • FLUX.2 [max]:支持最高 4MP 输出(约 2000x2000),在生成阶段直接输出高分辨率
    • Nano Banana Pro (Gemini 3 Pro Image):支持原生 4K 超高分辨率输出($0.24/张),在生成配置中指定 image_size="4K";使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例
  • 典型场景: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示(面料纹理)、建筑效果图高清直出、产品摄影级图像生成
  • 来源依据: Midjourney v8 使用介绍 2.2 节参数表(--hd 原生 2048px);3.2 节输出规格;3.4 节定价说明(HD 模式 4x GPU 成本);案例 4「男士西装设计」展示面料纹理细节;FLUX.2 [max] 使用介绍;Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例;用例 3「电商产品 Mockup」使用 "4K resolution"

CAP-017: 全向参考(Omni Reference)

  • 功能描述: 以单张或多张参考图像作为综合性参考输入,同时影响生成图像的内容主体、风格氛围、角色特征等多个维度,而非单一维度的参考约束
  • 判定标准: 生成图像能够综合体现参考图的多维度特征(如同时保留角色外观 + 场景氛围 + 风格倾向);与单一维度参考(仅风格或仅角色)相比,生成结果在多个维度上与参考图的吻合度更高
  • 实现方式:
    • Midjourney v8: Omni Reference 功能(Alpha 阶段),在提示词中上传参考图并指定参考类型权重,可同时作用于角色、风格、内容等多个维度;与 --cref(专项角色参考)和 --sref(专项风格参考)形成能力互补
  • 典型场景: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板(mood board)为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作
  • 来源依据: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考(Omni Reference)」为独立功能,与 --sref--cref 并列

CAP-018: 个人化风格持久化

  • 功能描述: 系统学习并记忆用户的历史审美偏好(如对特定色调、构图、风格的倾向),在后续生成中自动应用这些个人化偏好,使生成结果持续符合用户的个人审美风格,无需每次重复描述
  • 判定标准: 启用个人化后,生成结果在风格倾向上与用户历史偏好一致,无需每次在提示词中重复描述风格偏好;不同用户使用相同提示词时,因个人化设置不同而产生风格差异化的输出
  • 实现方式:
    • Midjourney v8: --p 参数(个人化系统),基于用户在 Midjourney 平台上的历史生成记录和偏好数据,自动调整生成风格倾向
  • 典型场景: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格
  • 来源依据: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统(--p)」为独立功能

CAP-019: 草图/手绘转效果图

  • 功能描述: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图,在保持原始构图和空间关系的同时,大幅提升视觉质量和细节丰富度
  • 判定标准: 输出效果图的构图、空间布局与输入草图保持一致;视觉质量从草图级提升至效果图/写实级;主要结构元素与草图对应,无随意添加或删除
  • 实现方式:
    • Nano Banana Pro (Gemini 3 Pro Image):输入手绘草图图片 + 描述目标风格的提示词(如 "Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition"),模型自动完成风格升级转换
    • ComfyUI: ControlNet(Canny/Lineart 预处理器)+ KSampler 工作流(侧重从草图到效果图的质量跃升)
  • 典型场景: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图
  • 来源依据: Nano Banana Pro 用例 9「手绘转效果图」,场景描述为「将草图转换为精美效果图」,提示词明确要求保持原始构图并转换为写实建筑渲染风格;来源标注为「小红书用户案例」

CAP-020: 多主体场景合成

  • 功能描述: 将多个独立的人物、角色或物体参考图像合成到同一个场景中,生成包含所有指定主体且各自外观特征保持一致的群体场景图
  • 判定标准: 生成图像中包含所有指定的主体(人物/物体);每个主体的外观特征与其对应参考图一致;各主体在场景中的位置、比例、光照协调自然,整体构图合理
  • 实现方式:
    • Nano Banana Pro (Gemini 3 Pro Image):支持最多 14 张图片输入,可同时上传多个人物/主体参考图 + 场景描述提示词,模型将所有主体合成到指定场景中(如 "Create a team photo of these 8 people in a modern office setting"
    • FLUX.2 [max]:原生多图参考(最多 10 张),可输入多个主体参考图进行合成
  • 典型场景: 团队合影生成(将多人照片合成为统一场景)、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图
  • 来源依据: Nano Banana Pro 用例 10「多角色场景合成」,场景描述为「将多个人物合成到一个场景中」,示例为将 8 人合成到现代办公室团队照中;技术规格 3.5 节「多图像混合:最多支持 14 张图片输入,保持角色和品牌一致性」

CAP-021: 图像内文字翻译与替换

  • 功能描述: 识别图像(如漫画、海报、标牌)中已有的文字内容,将其翻译为目标语言,并在保持原有字体风格、排版布局和图像其余部分不变的前提下,将翻译后的文字替换回图像中
  • 判定标准: 翻译后的文字内容语义准确;替换后的文字在字体风格、大小、位置上与原文字高度一致;图像中非文字区域(背景、人物、图形元素)保持不变;整体视觉效果自然,无明显拼接痕迹
  • 实现方式:
    • Nano Banana Pro (Gemini 3 Pro Image):输入含文字的图像 + 翻译指令提示词(如 "Translate all text in this comic panel from English to Japanese, maintain the original font style and layout"),模型同时完成识别、翻译和视觉替换
  • 典型场景: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换
  • 来源依据: Nano Banana Pro 用例 8「漫画与插画翻译」,场景描述为「将漫画中的文字翻译成其他语言」,来源标注为「知乎变现案例」,提示词明确要求保持原字体风格和布局