atomic_capabilities.md 19 KB

### A01: 多视角角色结构一致性保持
- **功能描述**: 在同一角色的正面、侧面、背面等不同视角图像中,精确维持其面部特征、身体比例、服装结构、配饰细节等三维结构属性的一致性,确保可直接用于3D建模或动画绑定。
- **判定标准**: 三视图中角色的关键解剖/设计特征(如痣的位置、袖口褶皱走向、武器握持角度)在空间逻辑上可对齐还原;任意两张图叠加对齐关键点时,误差≤3像素(以512px基准图计)。
- **实现方式**: ComfyUI: CharTurn系列模型 + ControlNet OpenPose/Depth节点控制姿态 + 角色概念图作为IP-Adapter参考输入;ComfyUI: AnimateDiff + ControlNet Reference-only模式 + 多视角提示词模板;Midjourney v8: --cref + Omni Reference + 多视角提示词模板(如 "front view", "3/4 profile", "back view")
- **典型场景**: 游戏角色原画交付、3D资产前期设计、IP形象标准化输出。
- **来源依据**: 案例1「游戏角色多视图生成」——明确要求“一致性高,可直接用于3D建模参考”,工作流依赖CharTurn模型与ControlNet协同控制姿态与结构。

### A02: 产品级对象跨背景一致性保持
- **功能描述**: 对同一物理产品(如手机、香水瓶、家具)在不同背景(纯色、场景、渐变)下生成图像时,严格保持其材质反射、几何形态、品牌标识、接缝细节等产品本体特征不变,消除背景干扰导致的形变或纹理失真。
- **判定标准**: 将不同背景下的生成图裁剪出产品主体区域后,PS中图层差值模式下无可见差异(ΔE<2);品牌Logo文字清晰可辨且无扭曲。
- **实现方式**: FLUX.2 [max]: 多参考图像输入(最多10张)+ “product_consistency: strict”隐式模式;ComfyUI: IP-Adapter(plus或face_id模式)+ 产品实物图作为参考输入 + 多背景图像批量注入至ImageScale/Composite节点;ComfyUI: ControlNet Tile(细节强化)+ LoRA微调产品专属特征 + 背景替换工作流;Nano Banana Pro: 多图输入(最多14张产品图)+ 背景提示词切换(如 "on white studio background", "in modern living room")+ "same product, identical texture and logo" 约束
- **典型场景**: 电商详情页制作、产品宣传册批量生成、AR商品预览素材准备。
- **来源依据**: 案例2「电商产品图批量生成」——强调“单个工作流生成100+张产品图”,核心依赖IP-Adapter保持产品本体一致性,背景通过模板化切换实现;案例5「FLUX.2 [max] 官方页面」明确多图参考下“不同场景和风格中保持角色面部特征一致性”,同理迁移至产品。

### A03: 老照片语义级修复与自然上色
- **功能描述**: 针对严重划痕、褪色、模糊的老照片,在保留原始人物神态、服饰时代特征、场景历史感的前提下,完成去噪、人脸结构重建、纹理增强及符合时代审美的自然色彩还原,避免AI幻觉式上色。
- **判定标准**: 修复后图像中人脸五官比例合理、皮肤纹理有真实颗粒感;色彩符合历史常识(如黑白照中木质家具呈暖棕、金属器物呈冷灰);无新增不存在的物体或服饰细节。
- **实现方式**: ComfyUI: CodeFormer节点(人脸专用)+ Tile VAE节点(全局细节增强)+ DeOldify节点(基于历史数据集训练的上色模型)+ 手动Mask隔离修复区域;ComfyUI: Stable Diffusion Inpainting节点 + 老照片作为Reference + “vintage photo, natural color, historical accuracy”提示词约束
- **典型场景**: 家族史数字化、博物馆档案修复、怀旧影视素材复原。
- **来源依据**: 案例3「老照片修复与上色」——明确列出CodeFormer、Tile模型、DeOldify三级处理链,且效果强调“清晰自然,色彩真实”。

### A04: 时序连贯的AI动画基础帧生成
- **功能描述**: 生成具备运动连续性、角色姿态逻辑合理、关键帧间形变可控的短序列动画(≥8帧),支持后续插帧或合成,避免常见跳帧、肢体错位、物体闪烁等问题。
- **判定标准**: 序列中相邻帧的光流变化平滑(无突变向量);角色关节运动符合生物力学(如抬手时肩肘腕联动);同一物体在序列中位置/大小变化符合透视规律。
- **实现方式**: ComfyUI: AnimateDiff节点(Lora适配器)+ ControlNet Reference(固定角色参考图)+ Motion Lora控制运动幅度;ComfyUI: LoopBack节点构建循环反馈 + KSampler动态种子偏移 + Pose Sequence ControlNet;Midjourney v8: --cref(固定角色图)+ --p(个人化动作模板)+ 批量提示词序列(如 "frame_01: walking forward", "frame_02: lifting knee")
- **典型场景**: 社交媒体15秒短视频、游戏过场动画草稿、教育类动态演示。
- **来源依据**: 案例4「AI动画短片制作」——指出“结合ControlNet保持角色一致性”并“批量生成后合成视频”,核心解决动画序列的时序稳定性。

### A05: 建筑线稿到多风格效果图的可控转换
- **功能描述**: 将同一张建筑手绘线稿或CAD导出线稿,精准转换为多种指定艺术风格(如“北欧极简”“赛博朋克”“水墨写意”)的效果图,确保建筑结构、门窗比例、空间关系在所有风格中严格一致,仅表皮材质、光影氛围、环境元素按风格迁移。
- **判定标准**: 不同风格图叠加线稿图层时,所有承重墙、开窗位置、楼梯走向完全重合;风格元素不破坏建筑功能逻辑(如赛博朋克风格中霓虹灯不遮挡消防通道)。
- **实现方式**: FLUX.2 [max]: 接地式生成(Grounded Generation)+ 风格提示词(如“北欧极简,参考Nordic Design Archive 2025”)+ 结构守恒约束;ComfyUI: ControlNet Canny节点(线稿输入)+ 多LoRA风格切换(现代/古典/工业LoRA)+ 风格提示词前缀;ComfyUI: T2I-Adapter(线稿编码)+ Style Transfer节点 + 局部重绘(Inpaint)强化风格细节;Midjourney v8: --sref(风格参考图)+ 线稿作为主图输入 + --stylize 100~300 区间精细调控风格强度;Nano Banana Pro: 手绘草图/线稿输入 + 风格提示词 + "maintain the original composition" 强约束
- **典型场景**: 建筑方案汇报、地产营销多版本提案、设计竞赛风格探索。
- **来源依据**: 案例5「建筑效果图快速出图」——明确“使用线稿作为ControlNet输入”“批量切换LoRA生成不同风格”,核心诉求是结构守恒下的风格解耦;FLUX文档2.3“高精度控制(颜色、姿态、构图)”与案例8“历史场景生成”共同支撑其结构守恒能力;用例9「手绘转效果图」直接验证 Nano Banana Pro 的结构守恒能力。

### A06: 工作流驱动的批量自动化生成
- **功能描述**: 将单一图像生成流程封装为可参数化调度的批处理任务,支持按预设规则(如背景列表、视角模板、风格LoRA池)自动遍历组合、生成、命名、保存,全程无需人工干预,满足生产级吞吐需求。
- **判定标准**: 输入N个变量(如5种背景+4种角度=20组),工作流自动触发20次独立生成;输出文件名含变量标识(如`product_red_back.png`);失败任务可单独重试且不影响队列。
- **实现方式**: FLUX.2 [max]: API端点 `/v1/flux-2-max` + CSV变量注入 + 动态prompt模板;ComfyUI: BatchManager节点 + CSV变量表导入 + 动态路径Save Image节点;ComfyUI: Python API调用(`/prompt`端点)+ 外部脚本循环提交JSON工作流 + 参数注入;Seedream 5.0 Lite: API端点(/v1/seedream)+ 轻量化低延迟(<1.2s)+ 官方API Explorer支持参数化调度(文档4.2 + 技术亮点4)
- **典型场景**: 电商SKU图量产、A/B测试素材生成、设计团队协作素材库建设。
- **来源依据**: 案例2/4/5均强调“批量生成”,文档2.2节明确“批处理优化”和API接口能力,指向自动化调度这一工程底座能力;FLUX API文档4.2明确支持JSON payload,案例6/7均体现参数化生成;Seedream技术规格2.1/2.3 + 技术亮点4“适合集成到设计工具链” + API调用示例。

### A07: 实时语境感知生成
- **功能描述**: 在图像生成过程中,自动执行实时网络搜索,动态获取并融合最新、最相关的外部事实性信息(如实时赛事结果、历史事件细节、流行文化符号、地理环境特征),确保生成内容在时间维度和事实维度上准确可信。
- **判定标准**: 生成图像中包含明确时效性元素(如比分牌、新闻标题、特定日期标识)且与真实世界一致(误差为0);对模糊提示(如“最近的比赛”)能自主解析时间窗口并返回正确结果;不依赖用户手动提供上下文链接或数据快照。
- **实现方式**: FLUX.2 [max]: 原生“Grounded Generation”机制(无需额外节点/参数,仅需含时效性关键词的prompt);Nano Banana Pro: 原生 tools=[{"google_search": {}}] + 思考过程可视化(可验证检索逻辑) + 提示词中嵌入时效性指令(如 "show current 2026 NBA Finals score");*暂无其他工具原生支持;ComfyUI需外接RAG插件+自定义搜索节点+T2I重绘工作流(复杂度高,非开箱即用)*;Seedream 5.0 Lite: 原生联网检索 + Chain-of-Thought 推理引擎(自动解析时效性语义并驱动构图决策)
- **典型场景**: 新闻配图快速生产、体育营销实时素材、历史教育可视化、政策解读图解。
- **来源依据**: 案例8(柏林墙倒塌历史场景)与案例9(皇马vs曼城比赛成绩)——官方明确标注“模型自动搜索网络获取比赛结果后生成”,且案例8强调“具有历史感的现实主义风格”,说明其不仅调用静态知识库,而是动态检索并理解语境;Nano Banana Pro 用例6(水循环信息图)、用例8(漫画翻译)进一步佐证其搜索接地能力;Seedream用例1 + 技术亮点1&2 + 竞品对比表。

### A08: 高保真图内文字渲染
- **功能描述**: 在生成图像中嵌入指定文字(品牌名、标语、Logo文案、产品参数等),确保文字**笔画清晰、无扭曲变形、语义准确(无错别字/乱码)、排版符合设计规范(如居中/对齐/字号比例)**,达到可直接用于印刷、UI或商标注册的视觉质量。
- **判定标准**: 文字区域放大至200%后仍可清晰辨识每个字符;PS中使用“字符面板”比对,字体粗细/间距/基线位置与提示词指定一致;生成100张同提示图,文字错误率≤0.5%(案例对比表指出其“仍有偶尔拼写错误”,反向验证该能力存在且为优化目标)。
- **实现方式**: FLUX.2 [max]: 原生高token编码器(Mistral-3-24B)+ 4MP分辨率输出 + 文本渲染专用微调头;DALL-E 3: “text_rendering: high”参数 + SVG参考图引导;Midjourney v8: --hd(2048px原生输出)+ --raw 模式 + 文字提示词前置(如 "LOGO: 'AQUA LAGER' in bold sans-serif, centered");Nano Banana Pro: 原生多语言高保真文本渲染引擎 + 4K分辨率输出 + 排版约束提示词(如 "Japanese text '夏のセール' in same font style and layout as reference comic panel") + 竞品对比表实测94–96%准确率
- **典型场景**: 电商主图文案植入、品牌VI系统输出、App界面原型生成、法律文书配图标注。
- **来源依据**: 案例6(AQUA LAGER啤酒瓶悬浮水中,文字渲染清晰)与案例7(生成可商用Logo)——小红书与官网均强调“文字清晰”,且竞品对比表将“文本渲染”列为独立评测维度,证明其作为独立能力被用户高频验证;Nano Banana Pro 用例4(Instagram广告)、用例5(书名)、用例8(漫画翻译)共同构成多语言、多场景、高准确率的文字保真证据链。

### A09: 几何守恒型重纹理
- **功能描述**: 对输入图像中的指定物体或区域,在**严格保持其原始三维几何结构、全局光照方向、表面曲率与阴影投射关系的前提下**,仅替换其表面材质表现(如将哑光塑料变为镜面金属、木质变为大理石、布料变为碳纤维),杜绝因材质变更引发的形变、透视错误或光照逻辑冲突。
- **判定标准**: 替换前后物体轮廓、边缘高光位置、阴影长度/角度、反射内容(如镜面中映出的天花板)完全一致;使用MeshLab等工具导入深度图,两图深度误差<0.5%;材质变化不导致物体“浮起”或“凹陷”等Z轴幻觉。
- **实现方式**: FLUX.2 [max]: 原生“High-fidelity Retexturing”模式(文档2.3明确命名,输入原图+材质描述即可);ComfyUI: ControlNet Depth + Inpainting节点 + 材质LoRA(需手动对齐深度图);Stable Diffusion XL: T2I-Adapter(depth)+ IP-Adapter(材质参考图)+ 局部重绘mask;Midjourney v8: --cref(原始材质图)+ --sref(目标材质图)+ 材质描述提示词(如 "retextured with brushed stainless steel, same lighting and curvature");Nano Banana Pro: 手绘草图/线稿输入 + 材质描述提示词 + 4K输出保障曲率细节
- **典型场景**: 家具材质方案比选、汽车外观定制预览、工业设计表面工艺验证、虚拟试衣间布料模拟。
- **来源依据**: 案例1(台灯替换,强调“对角度进行了调整”——说明模型理解原始台灯的3D姿态并保持)与案例2(白天转夜间亮灯,需维持灯具结构与光源位置关系)——知乎用户实测反馈聚焦于“角度调整”“亮灯效果自然”,指向几何与光照逻辑的联合守恒,而非简单贴图;Nano Banana Pro 用例9(手绘转效果图)隐含对原始几何的深度理解。

### A10: 单图解剖结构可信锚定
- **功能描述**: 在单张生成图像中,确保角色/生物/复杂人造物的关键解剖或机械结构符合真实世界物理与生物学约束(如五指完整且比例合理、肘关节弯曲方向符合骨骼联动、齿轮咬合无穿模、翅膀骨骼支撑逻辑自洽),杜绝AI常见幻觉性结构错误。
- **判定标准**: 图像中所有可辨识的生物关节(手/足/脊柱/下颌)、机械连接点(铰链/轴承/传动轴)、拓扑关键区域(耳垂与颅骨连接、指甲与指腹过渡)在放大至200%后,结构连续性无断裂、穿插、数量错误或反向扭曲;经专业解剖/机械设计师目检,无需标注即判定为“结构可信”。
- **实现方式**: Midjourney v8: --cref(角色参考图)+ Omni Reference 全向特征对齐机制(自动提取并锚定输入图中的3D结构先验);Midjourney v8: --raw + --stylize 0(抑制风格化干扰,强化结构忠实度);ComfyUI: ControlNet OpenPose + Depth + Normal三节点联合约束(需手动配准,非开箱即用)
- **典型场景**: 角色原画终稿交付、医学教育插图生成、工业设备概念图验证、动画绑定前结构审查。
- **来源依据**: V8 vs V7 对比评测明确指出“V8 在解剖结构(手部)方面有明显优势”,且案例1(荒漠游侠)与案例2(水下居民)虽用v6.1生成,但用户反馈“v8生成同一提示词时,手部不再出现六指或熔融状”,说明该能力是v8的核心突破点;官方教程视频《THE BEST TIP for Generating Text in Midjourney V8》中亦强调“Omni Reference 可让模型理解‘手臂不是一根棍子’”。

### A11: 多图协同角色一致性锚定
- **功能描述**: 在单次生成任务中,利用最多14张异构参考图(不同角度、表情、光照、服饰、姿态),自动提取并融合其中共享的身份特征(面部ID、体型比例、标志性配饰、行为习惯),构建统一、鲁棒的角色身份表征,并在目标提示词约束下稳定输出符合该身份的所有变体,解决多源参考间的特征冲突与歧义。
- **判定标准**: 同一提示词下生成的多张图(如正面/侧脸/半身/全身)中,关键身份标识(如左眉痣、耳垂形状、手表表带纹路、惯用手姿势)在像素级(≤2px误差)和语义级(如“always holds coffee cup in right hand”)均保持一致;任意两张参考图输入后,生成结果不出现“特征漂移”(如某图强调圆脸,另一图强调长脸,输出却呈现第三种脸型)。
- **实现方式**: Nano Banana Pro: 原生多图输入(最多14张)+ `tools=[{"google_search": {}}]`(可选,用于校准时代/文化特征)+ 提示词中显式声明身份约束(如 "same person as all reference images, consistent facial structure and body proportions");ComfyUI: Multi-IP-Adapter节点组(需手动配置权重与冲突消解逻辑,非开箱即用);Seedream 5.0 Lite: 原生多图输入(最多14张)+ 自动特征融合与冲突消解机制(文档3.3节“一致性达92%” + 用例3“游戏角色多场景展示”)
- **典型场景**: 虚拟网红全平台形象统一(TikTok/Instagram/官网头图)、跨国品牌代言人多语言广告一致性、影视预演中主角多状态快照生成、法律文书中的当事人形象存证。
- **来源依据**: 使用介绍3.5节“最多14张图片输入,保持角色和品牌一致性”;用例1(AI Influencer创作)强调“full-body photo of a 25-year-old female fashion influencer”需与多张参考图身份对齐;用例10(8人团队照)要求“these 8 people”在合成中各自身份不混淆,反向验证其多图身份分离与锚定能力;Seedream用例3 + 3.3节 + 竞品对比表。

### A12: 实时动态数据可视化
- **功能描述**: 将实时、结构化的外部动态数据(如当前城市气温/湿度、国际金价每盎司报价、单日电影票房TOP3榜单)自动解析为符合人类认知习惯的视觉符号(温度计/箭头/柱状图/徽章),并按设计逻辑(极简/信息图/海报式)无缝嵌入目标图像构图中,确保数据准确、符号可读、布局专业、风格统一。
- **判定标准**: 生成图像中数据数值与真实世界完全一致(误差为0);所有可视化元素(如温度刻度、金价单位、票房数字字体)符合领域规范且无歧义;同一提示词下重复生成10次,数据符号位置、比例、配色一致性≥95%;无需后期PS即可直接用于新闻资讯页或数据看板。
- **实现方式**: Seedream 5.0 Lite: 原生联网检索 + Chain-of-Thought 推理引擎(自动选择最优图表类型与空间布局)+ 数据符号微调头(文档3.1/技术亮点1&2);*暂无其他工具原生支持端到端数据→图表→图像闭环;FLUX.2/Nano Banana Pro 需额外人工设计图表模板并作为参考图输入,非自动解析*
- **典型场景**: 新闻客户端实时天气卡片、金融App金价行情图、影视平台票房日榜海报、教育类APP实时科学数据演示。
- **来源依据**: 用例1「实时信息可视化」——明确列出“当前天气预报可视化”“实时金价走势图”“最新票房数据图表”三类典型,并强调“业界首创的联网检索能力”;竞品对比表将“实时联网”单列为核心特性;技术亮点2再次确认“可生成包含实时天气、新闻、金价等动态信息的图像”,且区别于简单文字叠加,强调其“可视化”本质。