howard/Agent: 支持永久记忆、持续学习、探索性解决复杂问题的Agent框架。 @ 2ad3eb44eeb5c02ce9419e45a59df0f53bf4ee20

CAP-001: 文本到图像生成

功能描述: 根据文字描述（正向/反向提示词）生成对应图像，是最基础的 AI 图像生成能力
判定标准: 生成图像在内容、风格、构图上与提示词描述一致；反向提示词中的元素未出现在图像中
实现方式:
- ComfyUI: CheckpointLoader + CLIPTextEncode（正/负）+ EmptyLatentImage + KSampler + VAEDecode + SaveImage 标准文生图工作流
- FLUX.2 [max]：直接输入提示词，支持最高 32K tokens、4MP 输出，照片级真实感突出（案例 4 老渔夫肖像）
- Midjourney v8: /imagine prompt: [描述] --v 8，支持最多 4000 字符提示词，多语言输入（英文效果最佳），默认输出 4 张 1024x1024 PNG；提示词遵循性强，默认偏向摄影写实风格，生成速度约 10-15 秒
- Nano Banana Pro (Gemini 3 Pro Image)：直接输入提示词，支持 1K/2K/4K 分辨率输出，多种宽高比（1:1 至 21:9），生成速度 8-12 秒，照片级真实感突出（用例 1-3 虚拟网红、专业头像、产品 Mockup）
- Seedream 5.0 Lite：直接输入提示词，Chain-of-Thought 推理架构先进行逻辑解析再生成像素，提升提示词遵循性（MagicBench 基准 Prompt Following 维度显著提升）；生成速度 <1.2s（1080p）；支持 PNG/JPEG 输出；定价 $0.035/张
典型场景: 从零开始创作数字艺术、生成设计素材、制作博客配图、游戏概念图生成、照片级人像生成、室内设计效果图、角色概念设计
来源依据: ComfyUI 使用介绍第 2.2 节「文生图工作流搭建（6 步）」；案例 5「建筑效果图快速出图」；FLUX.2 [max] 案例 4「老渔夫肖像」；Midjourney v8 案例 1-5；Nano Banana Pro 使用介绍 5.1 节基础图像生成示例；用例 1「AI Influencer 创作」、用例 2「专业头像生成」、用例 3「电商产品 Mockup」；Seedream 5.0 Lite 使用介绍 1.2 节、2.1 节、实际用例「技术亮点」第 3-4 条

CAP-002: 结构/姿态控制生成

功能描述: 以线稿、深度图、姿态骨架、法线图等结构信息为约束条件，控制生成图像的构图、姿态或空间结构
判定标准: 生成图像的主体姿态/空间结构与输入的控制图高度吻合；在保持结构约束的同时，图像内容/风格可自由变化
实现方式: ComfyUI: ControlNet 节点（Advanced-ControlNet 自定义节点）+ 预处理器节点（OpenPose/Canny/Depth 等）+ KSampler 工作流
典型场景: 游戏角色多视图生成（控制正/侧/背面姿态）、建筑线稿转效果图、人物姿态指定生成
来源依据: 案例 1「游戏角色多视图生成」使用 ControlNet 控制角色姿态；案例 5「建筑效果图快速出图」使用线稿作为 ControlNet 输入；使用介绍 4.5 节列出 Advanced-ControlNet 为必备自定义节点

CAP-003: 图像主体一致性保持

功能描述: 以参考图像为输入，在生成新图像时保持参考图中主体（产品、角色、物体）的外观特征不变，使其出现在不同背景、场景或构图中
判定标准: 生成图像中的主体与参考图在颜色、形状、纹理、关键特征上高度一致；背景/场景可以自由变化
实现方式:
- ComfyUI: IP-Adapter 节点（IPAdapter 自定义节点包）+ 参考图输入 + KSampler 工作流
- FLUX.2 [max]：原生多图参考（最多 10 张），稳定保留人物面部特征、身体比例、表情特点（案例 5 角色一致性保持）
- Midjourney v8 --cref：角色参考参数，上传角色参考图后生成保持该角色外观特征的新图像；v8 相比 v7 在解剖结构（尤其手部）和角色一致性方面有明显改进
- Nano Banana Pro (Gemini 3 Pro Image)：原生多图参考（最多 14 张），可同时上传多张角色/产品参考图，稳定保留主体外观特征；技术规格 3.5 节明确说明「保持角色和品牌一致性」
- Seedream 5.0 Lite：原生多图参考（最多 14 张），人脸特征、色调、风格等高度稳定，官方标注一致性达 92%；适用于游戏角色多场景展示、品牌营销素材系列、故事板连续画面
典型场景: 电商产品多背景展示图生成、角色在不同场景中保持外观一致、品牌物料批量生成、游戏角色系列图生成
来源依据: ComfyUI 案例 2「电商产品图批量生成」使用 IP-Adapter；FLUX.2 [max] 案例 5「角色一致性保持」；Midjourney v8 使用介绍 2.3 节高级功能 --cref；Nano Banana Pro 使用介绍 3.5 节「多图像混合」及用例 1「AI Influencer 创作」；Seedream 5.0 Lite 使用介绍 1.2 节、3.3 节；实际用例第 3 条「多图一致性创作」

CAP-004: 风格切换与风格控制

功能描述: 通过加载不同的风格模型或风格参数，在保持内容/结构基本不变的前提下，将图像渲染为指定的艺术风格；或通过风格参考图引导生成图像的整体视觉风格
判定标准: 生成图像的视觉风格与目标风格（LoRA/参考图/参数描述）一致；可在同一内容基础上批量切换多种风格并输出
实现方式:
- ComfyUI: LoRA Loader 节点 + CheckpointLoader + KSampler 工作流；批量切换时使用循环/批处理节点遍历多个 LoRA
- Midjourney v8 --sref：风格参考参数，上传风格参考图，生成图像的视觉风格向参考图靠拢
- Midjourney v8 --stylize [值]：控制风格化程度（如 --stylize 250），值越高越具艺术风格化；--raw 参数获得最低风格化的原始输出
典型场景: 建筑效果图多风格出图（现代/古典/工业）、角色多风格概念图、品牌视觉风格探索、插画风格指定生成
来源依据: ComfyUI 案例 5「建筑效果图快速出图」中准备多个风格 LoRA；Midjourney v8 使用介绍 2.2 节参数表（--stylize、--raw）；2.3 节高级功能（--sref）；案例 4「男士西装设计」使用 --stylize 250；案例 5「童话城堡插画」通过提示词描述水彩风格

CAP-005: 人脸修复与增强

功能描述: 对图像中的人脸区域进行专项修复和增强，解决人脸模糊、变形、细节缺失等问题
判定标准: 修复后人脸清晰度显著提升；五官比例自然，无明显 AI 变形痕迹；与图像其他区域融合自然
实现方式: ComfyUI: CodeFormer 节点 / Impact-Pack 中的 FaceDetailer 节点 + 图像输入工作流；ReActor 节点用于换脸场景
典型场景: 老照片人脸修复、AI 生成图中人脸细节增强、批量人像后期处理
来源依据: 案例 3「老照片修复与上色」使用 CodeFormer 节点进行人脸修复；使用介绍 4.5 节列出 Impact-Pack 和 ReActor 为必备自定义节点

CAP-006: 图像细节增强与高清放大

功能描述: 对已生成的图像进行分辨率提升和细节增强，在放大的同时补充高频细节（后处理路径，区别于生成阶段直接高清输出的 CAP-016）
判定标准: 放大后图像分辨率显著提升（如 2x/4x）；细节更丰富，无明显模糊或锯齿；整体风格与原图一致
实现方式: ComfyUI: Ultimate SD Upscale 自定义节点 + Tile ControlNet 模型 + VAEDecode 工作流；大图使用 Tiled VAE 节点避免显存溢出
典型场景: 低分辨率草图放大为高清成品、建筑效果图细节增强、打印级别图像输出、对已生成图像进行后期放大
来源依据: 案例 3「老照片修复与上色」使用 Tile 模型进行细节增强；案例 5「建筑效果图快速出图」使用高清修复提升细节；使用介绍 4.5 节列出 Ultimate SD Upscale 为必备自定义节点

CAP-007: 图像上色

功能描述: 将黑白或低饱和度的图像自动上色，生成色彩自然、符合语义的彩色图像
判定标准: 上色结果色彩自然，符合图像内容的语义（皮肤、天空、植物颜色合理）；无明显色块错误或颜色溢出
实现方式: ComfyUI: DeOldify 模型节点或类似上色模型节点 + 图像输入 + VAEDecode 工作流
典型场景: 老照片上色、历史图像彩色化、黑白素描上色
来源依据: 案例 3「老照片修复与上色」使用 DeOldify 或类似模型对老照片进行上色处理

CAP-008: 批量图像生成

功能描述: 在单次工作流执行中，通过批处理机制自动循环生成大量图像（不同背景、不同参数、不同种子等），并自动命名保存
判定标准: 单次执行可生成 N 张图像（N 可配置）；每张图像按预设规则变化；自动保存并按规则命名，无需人工干预
实现方式:
- ComfyUI: 批处理循环节点 + EmptyLatentImage（batch_size 参数）+ 多模板输入列表 + SaveImage 自动命名工作流
- Nano Banana Pro REST API：Batch API 模式（50% 折扣），程序化批量提交生成任务
典型场景: 电商产品多背景批量出图、数据集批量生成、多参数对比实验
来源依据: ComfyUI 案例 2「电商产品图批量生成」通过批处理节点循环生成 100+ 张产品图；使用介绍 4.2 节提及 batch_size 性能优化技巧；Nano Banana Pro 使用介绍第 6 节定价信息中提及「Batch API: 50% 折扣」

CAP-009: AI 动画帧序列生成

功能描述: 基于文本描述或参考图像，生成具有时间连贯性的动画帧序列，使内容产生动态运动效果
判定标准: 生成的帧序列在内容上连贯，运动自然无明显跳变；帧与帧之间的角色/场景保持一致性；可导出为视频或 GIF
实现方式: ComfyUI: AnimateDiff 自定义节点 + ControlNet（保持角色一致性）+ KSampler + 视频合成节点工作流
典型场景: 短视频动画制作、角色动作演示、AI 动态壁纸生成
来源依据: 案例 4「AI 动画短片制作」使用 AnimateDiff 生成基础动画，结合 ControlNet 保持角色一致性；使用介绍 4.5 节列出 AnimateDiff 为必备自定义节点

CAP-010: 动画帧插值

功能描述: 在已有动画帧之间插入过渡帧，提升动画的流畅度和帧率，使运动更加平滑自然
判定标准: 插值后帧率显著提升（如从 8fps 到 24fps）；插入的过渡帧与相邻帧在内容和运动上自然衔接；无明显鬼影或模糊
实现方式: ComfyUI: RIFE 节点（或类似帧插值节点）+ 帧序列输入 + 视频输出工作流
典型场景: AI 动画流畅度提升、低帧率视频补帧、动态效果增强
来源依据: 案例 4「AI 动画短片制作」使用 RIFE 或类似节点进行帧插值，使动画更流畅

CAP-011: 工作流自动化与 API 集成

功能描述: 通过 REST API 将图像生成能力集成到外部系统或自动化流程中，实现程序化调用、任务队列管理和结果获取
判定标准: 外部程序可通过 API 提交生成任务并获取结果；支持异步任务状态查询；可集成到业务系统或 CI/CD 流程中
实现方式:
- ComfyUI REST API：POST /prompt 提交任务 + GET /history/{id} 查询结果 + GET /queue 队列管理 + Python/任意语言客户端
- FLUX.2 [max] REST API：POST /v1/flux-2-max（x-key Header 认证），支持文生图、图像编辑、填充等任务类型的程序化调用；使用介绍 4.2 节提供完整端点示例
- Nano Banana Pro REST API：使用 google-genai SDK（Python ≥1.52.0 / JS/TS ≥1.30），通过 client.models.generate_content() 调用，模型 ID gemini-3-pro-image-preview；支持 Batch API（50% 折扣）；使用介绍 4.3-4.4 节提供完整 SDK 安装和初始化示例
- Seedream 5.0 Lite REST API：POST https://api.byteplus.com/v1/seedream（Bearer Token 认证），JSON 请求体传入 prompt 及参数；支持 BytePlus、Replicate、Together AI、fal.ai 等多平台接入；生成延迟 <1.2s，适合实时集成场景；定价 $0.035/张
典型场景: 电商平台自动生成产品图、内容平台批量配图、游戏资产自动化生产流水线
来源依据: ComfyUI 使用介绍第 3.4 节「API 接口」；FLUX.2 [max] 使用介绍第 4 节「API 接入」及 4.2 节端点示例；Nano Banana Pro 使用介绍 4.3 节「安装 SDK」、4.4 节「初始化客户端」、5.1 节基础调用示例；Seedream 5.0 Lite 使用介绍 4.2 节「API 调用」Python 示例、1.4 节「平台支持」、2.1 节「轻量化部署」

CAP-012: 图像局部重绘

功能描述: 对图像的指定区域进行重新生成，保持其余区域不变，实现局部内容的替换、修复或扩展
判定标准: 重绘区域内容按提示词生成，与周围区域在光照、风格、边缘上自然融合；非重绘区域像素保持不变
实现方式:
- ComfyUI: VAE Encode（inpaint 模式）+ 蒙版输入（Mask）+ KSampler（denoise 参数控制重绘强度）+ VAEDecode 工作流
- FLUX.2 [max]：图像编辑模式，输入原图 + 文字描述目标变化，无需手动绘制蒙版，支持物体替换（案例 1：台灯替换，自动调整角度）、物体移除（案例 3：去除吊灯并自然修复背景）
- Seedream 5.0 Lite：高级编辑模式，支持单图编辑，包括局部元素删除/修改、背景随机替换；通过文字描述指定编辑目标，无需手动绘制蒙版
典型场景: 修复图像中的瑕疵区域、替换背景中的特定元素、为产品图更换颜色/材质、老照片破损区域修复、物体移除与背景补全
来源依据: ComfyUI 使用介绍第 1.3 节功能介绍；FLUX.2 [max] 案例 1「物体替换」和案例 3「物体移除」；Seedream 5.0 Lite 使用介绍 3.4 节「高级编辑」；实际用例第 4 条「高级图像编辑」，示例包含局部元素删除/修改、背景随机替换

CAP-013: 实时语境融合生成

功能描述: 在生成图像时，模型自动执行实时网络搜索，获取当前最新的事件、数据、状态等语境信息，并将其融入生成结果，使图像内容与现实世界的最新状态保持一致
判定标准: 生成图像中包含了提示词所指向的真实世界最新信息（如比赛结果、当前事件、实时数据）；若无网络搜索能力，同样的提示词将无法生成准确内容
实现方式:
- FLUX.2 [max]（Grounded Generation，仅此模型独有）：直接在提示词中描述需要实时信息的场景，模型自动触发网络搜索并融合结果
- Nano Banana Pro (Gemini 3 Pro Image)：在生成配置中启用 tools=[{"google_search": {}}]（Search Grounding），连接 Google 搜索获取实时数据，可生成准确的信息图表和时事相关图像；使用介绍 3.3 节、5.3 节
- Seedream 5.0 Lite：实时联网检索（官方称「业界首创」），在提示词中描述需要实时信息的场景，模型自动触发网络搜索获取天气、金价、票房等实时数据并融入图像生成；使用介绍 3.1 节
典型场景: 生成包含最新体育赛事结果的图像、反映当前新闻事件的视觉化内容、需要引用实时数据的信息图、基于当前市场数据的图表生成、天气预报可视化、金融数据图表
来源依据: FLUX.2 [max] 案例 9「足球比赛结果生成」；FLUX.2 [max] 使用介绍 2.1 节「接地式生成」；Nano Banana Pro 使用介绍 3.3 节「搜索接地（Search Grounding）」及 5.3 节代码示例；用例 6「信息图与教育内容」；Seedream 5.0 Lite 使用介绍 1.2 节核心特性「实时联网检索」、3.1 节详细说明；实际用例第 1 条「实时信息可视化」（天气预报、金价走势图、票房数据图表）及「技术亮点」第 2 条

CAP-014: 图像内文字渲染

功能描述: 在生成的图像中嵌入清晰、可读、拼写正确的指定文字内容，使文字作为图像视觉元素的一部分自然呈现（如产品标签、Logo 文字、标牌、广告语等）
判定标准: 图像中的文字内容与提示词指定的文字一致；文字清晰可读，无明显拼写错误；文字与图像整体风格和场景自然融合；多语言文字（中/日/西班牙文等）可正确渲染
实现方式:
- FLUX.2 [max]：在提示词中直接指定文字内容（如 labeled 'AQUA LAGER'），模型原生支持文字渲染；注意仍有偶尔拼写错误，建议对关键文字进行人工校验
- Midjourney v8：相比前代版本有「改进的文本渲染」（核心特性之一），在提示词中直接描述需要渲染的文字内容；官方教程视频专门讲解文字渲染技巧
- Nano Banana Pro (Gemini 3 Pro Image)：多语言高保真文本渲染（英文、中文、日文、西班牙文等），支持复杂排版布局，文本准确率 94-96%（竞品对比表数据），显著优于 Midjourney V7（71%）和 DALL-E 3（76-78%）；使用介绍 3.1 节「完美文本渲染」
典型场景: 产品包装/标签图生成、Logo 设计、含文字的广告海报生成、标牌/招牌场景生成、多语言版本图像生成、书籍封面标题渲染
来源依据: FLUX.2 [max] 案例 6「AQUA LAGER 啤酒产品摄影」；案例 7「Logo 设计」；Midjourney v8 使用介绍 1.2 节核心特性「改进的文本渲染」；Nano Banana Pro 使用介绍 3.1 节「完美文本渲染」；竞品对比表文本准确率数据；用例 4「社交媒体广告」（含粗体排版文字）、用例 5「书籍封面设计」（含标题文字）

CAP-015: 场景光照/时段转换

功能描述: 对已有图像进行全局语义级的光照条件或时段氛围转换（如白天→夜晚、晴天→阴雨、自然光→人工照明），在保持场景结构和主体不变的前提下，整体改变图像的光照氛围
判定标准: 转换后图像的光照/时段氛围与目标描述一致；场景的空间结构、家具布局、主体形态保持不变；光照变化在整个画面中物理上自洽（如夜间场景中灯光投影合理）
实现方式: FLUX.2 [max]：图像编辑模式，输入原图 + 描述目标光照/时段的提示词（如 "将图像做成夜间亮灯的效果"），模型自动完成全局光照语义转换
典型场景: 建筑/室内效果图的昼夜版本生成、同一场景不同天气氛围展示、摄影后期光照氛围调整
来源依据: FLUX.2 [max] 案例 2「夜间效果转换」中用户输入「将图像做成夜间亮灯的效果」，成功将白天室内场景转换为夜间亮灯效果，场景结构保持不变

CAP-016: 生成阶段原生高分辨率输出

功能描述: 在图像生成阶段直接输出高分辨率图像（而非先生成低分辨率再后期放大），使生成结果在细节密度、结构完整性上优于先生成后放大的路径
判定标准: 生成图像在原始输出阶段即达到 2K（2048px）级别或以上分辨率；图像细节（如面料纹理、建筑线条、人物五官）在原生尺寸下清晰完整，无放大插值痕迹
实现方式:
- Midjourney v8: --hd 参数，原生输出 2048px，最大宽高比 4:1（HD 模式），GPU 成本为标准的 4 倍；可与 --q 4 组合使用（总计 16x GPU 成本）
- FLUX.2 [max]：支持最高 4MP 输出（约 2000x2000），在生成阶段直接输出高分辨率
- Nano Banana Pro (Gemini 3 Pro Image)：支持原生 4K 超高分辨率输出（$0.24/张），在生成配置中指定 image_size="4K"；使用介绍 3.4 节「4K 超高分辨率」及 5.4 节代码示例
典型场景: 需要直接输出印刷级/展示级图像而无需后期放大处理、时装设计细节展示（面料纹理）、建筑效果图高清直出、产品摄影级图像生成
来源依据: Midjourney v8 使用介绍 2.2 节参数表（--hd 原生 2048px）；3.2 节输出规格；3.4 节定价说明（HD 模式 4x GPU 成本）；案例 4「男士西装设计」展示面料纹理细节；FLUX.2 [max] 使用介绍；Nano Banana Pro 使用介绍 2.2 节分辨率选项、3.4 节「4K 超高分辨率」、5.4 节 4K 生成代码示例；用例 3「电商产品 Mockup」使用 "4K resolution"

CAP-017: 全向参考（Omni Reference）

功能描述: 以单张或多张参考图像作为综合性参考输入，同时影响生成图像的内容主体、风格氛围、角色特征等多个维度，而非单一维度的参考约束
判定标准: 生成图像能够综合体现参考图的多维度特征（如同时保留角色外观 + 场景氛围 + 风格倾向）；与单一维度参考（仅风格或仅角色）相比，生成结果在多个维度上与参考图的吻合度更高
实现方式:
- Midjourney v8: Omni Reference 功能（Alpha 阶段），在提示词中上传参考图并指定参考类型权重，可同时作用于角色、风格、内容等多个维度；与 --cref（专项角色参考）和 --sref（专项风格参考）形成能力互补
典型场景: 基于概念图生成保持整体氛围和角色特征的系列图、以情绪板（mood board）为参考生成符合整体视觉方向的图像、复杂参考场景下需要多维度约束的创作
来源依据: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「全向参考（Omni Reference）」为独立功能，与 --sref 和 --cref 并列

CAP-018: 个人化风格持久化

功能描述: 系统学习并记忆用户的历史审美偏好（如对特定色调、构图、风格的倾向），在后续生成中自动应用这些个人化偏好，使生成结果持续符合用户的个人审美风格，无需每次重复描述
判定标准: 启用个人化后，生成结果在风格倾向上与用户历史偏好一致，无需每次在提示词中重复描述风格偏好；不同用户使用相同提示词时，因个人化设置不同而产生风格差异化的输出
实现方式:
- Midjourney v8: --p 参数（个人化系统），基于用户在 Midjourney 平台上的历史生成记录和偏好数据，自动调整生成风格倾向
典型场景: 长期创作者希望保持个人风格一致性、品牌设计师希望所有生成图像符合品牌视觉调性、摄影师希望 AI 生成图像符合其个人摄影风格
来源依据: Midjourney v8 使用介绍 2.3 节高级功能列表中明确列出「个人化系统（--p）」为独立功能

CAP-019: 草图/手绘转效果图

功能描述: 将用户提供的手绘草图、线稿或粗略示意图转换为精美的效果图或写实渲染图，在保持原始构图和空间关系的同时，大幅提升视觉质量和细节丰富度
判定标准: 输出效果图的构图、空间布局与输入草图保持一致；视觉质量从草图级提升至效果图/写实级；主要结构元素与草图对应，无随意添加或删除
实现方式:
- Nano Banana Pro (Gemini 3 Pro Image)：输入手绘草图图片 + 描述目标风格的提示词（如 "Convert this hand-drawn sketch into a photorealistic architectural rendering, maintain the original composition"），模型自动完成风格升级转换
- ComfyUI: ControlNet（Canny/Lineart 预处理器）+ KSampler 工作流（侧重从草图到效果图的质量跃升）
典型场景: 建筑/室内设计草图转效果图、产品设计手稿转渲染图、概念艺术草图转精细插画、快速将创意草图可视化为可展示的效果图
来源依据: Nano Banana Pro 用例 9「手绘转效果图」，场景描述为「将草图转换为精美效果图」，提示词明确要求保持原始构图并转换为写实建筑渲染风格；来源标注为「小红书用户案例」

CAP-020: 多主体场景合成

功能描述: 将多个独立的人物、角色或物体参考图像合成到同一个场景中，生成包含所有指定主体且各自外观特征保持一致的群体场景图
判定标准: 生成图像中包含所有指定的主体（人物/物体）；每个主体的外观特征与其对应参考图一致；各主体在场景中的位置、比例、光照协调自然，整体构图合理
实现方式:
- Nano Banana Pro (Gemini 3 Pro Image)：支持最多 14 张图片输入，可同时上传多个人物/主体参考图 + 场景描述提示词，模型将所有主体合成到指定场景中（如 "Create a team photo of these 8 people in a modern office setting"）
- FLUX.2 [max]：原生多图参考（最多 10 张），可输入多个主体参考图进行合成
典型场景: 团队合影生成（将多人照片合成为统一场景）、多角色群像插画、家庭/朋友群体场景合成、多产品组合展示图
来源依据: Nano Banana Pro 用例 10「多角色场景合成」，场景描述为「将多个人物合成到一个场景中」，示例为将 8 人合成到现代办公室团队照中；技术规格 3.5 节「多图像混合：最多支持 14 张图片输入，保持角色和品牌一致性」

CAP-021: 图像内文字翻译与替换

功能描述: 识别图像（如漫画、海报、标牌）中已有的文字内容，将其翻译为目标语言，并在保持原有字体风格、排版布局和图像其余部分不变的前提下，将翻译后的文字替换回图像中
判定标准: 翻译后的文字内容语义准确；替换后的文字在字体风格、大小、位置上与原文字高度一致；图像中非文字区域（背景、人物、图形元素）保持不变；整体视觉效果自然，无明显拼接痕迹
实现方式:
- Nano Banana Pro (Gemini 3 Pro Image)：输入含文字的图像 + 翻译指令提示词（如 "Translate all text in this comic panel from English to Japanese, maintain the original font style and layout"），模型同时完成识别、翻译和视觉替换
典型场景: 漫画/图文内容多语言本地化、海报/广告素材的多语言版本生成、产品包装文字多语言适配、教育材料的语言版本转换
来源依据: Nano Banana Pro 用例 8「漫画与插画翻译」，场景描述为「将漫画中的文字翻译成其他语言」，来源标注为「知乎变现案例」，提示词明确要求保持原字体风格和布局

atomic_capabilities.md 26 KB Histórico Raw

CAP-001: 文本到图像生成

CAP-002: 结构/姿态控制生成

CAP-003: 图像主体一致性保持

CAP-004: 风格切换与风格控制

CAP-005: 人脸修复与增强

CAP-006: 图像细节增强与高清放大

CAP-007: 图像上色

CAP-008: 批量图像生成

CAP-009: AI 动画帧序列生成

CAP-010: 动画帧插值

CAP-011: 工作流自动化与 API 集成

CAP-012: 图像局部重绘

CAP-013: 实时语境融合生成

CAP-014: 图像内文字渲染

CAP-015: 场景光照/时段转换

CAP-016: 生成阶段原生高分辨率输出

CAP-017: 全向参考（Omni Reference）

CAP-018: 个人化风格持久化

CAP-019: 草图/手绘转效果图

CAP-020: 多主体场景合成

CAP-021: 图像内文字翻译与替换

atomic_capabilities.md 26 KB

Histórico Raw