howard/Agent: 支持永久记忆、持续学习、探索性解决复杂问题的Agent框架。 @ 2ad3eb44eeb5c02ce9419e45a59df0f53bf4ee20

### A01: 多视角角色结构一致性保持
- **功能描述**: 在同一角色的正面、侧面、背面等不同视角图像中，精确维持其面部特征、身体比例、服装结构、配饰细节等三维结构属性的一致性，确保可直接用于3D建模或动画绑定。
- **判定标准**: 三视图中角色的关键解剖/设计特征（如痣的位置、袖口褶皱走向、武器握持角度）在空间逻辑上可对齐还原；任意两张图叠加对齐关键点时，误差≤3像素（以512px基准图计）。
- **实现方式**: ComfyUI: CharTurn系列模型 + ControlNet OpenPose/Depth节点控制姿态 + 角色概念图作为IP-Adapter参考输入；ComfyUI: AnimateDiff + ControlNet Reference-only模式 + 多视角提示词模板；Midjourney v8: --cref + Omni Reference + 多视角提示词模板（如 "front view", "3/4 profile", "back view"）
- **典型场景**: 游戏角色原画交付、3D资产前期设计、IP形象标准化输出。
- **来源依据**: 案例1「游戏角色多视图生成」——明确要求“一致性高，可直接用于3D建模参考”，工作流依赖CharTurn模型与ControlNet协同控制姿态与结构。

### A02: 产品级对象跨背景一致性保持
- **功能描述**: 对同一物理产品（如手机、香水瓶、家具）在不同背景（纯色、场景、渐变）下生成图像时，严格保持其材质反射、几何形态、品牌标识、接缝细节等产品本体特征不变，消除背景干扰导致的形变或纹理失真。
- **判定标准**: 将不同背景下的生成图裁剪出产品主体区域后，PS中图层差值模式下无可见差异（ΔE<2）；品牌Logo文字清晰可辨且无扭曲。
- **实现方式**: FLUX.2 [max]: 多参考图像输入（最多10张）+ “product_consistency: strict”隐式模式；ComfyUI: IP-Adapter（plus或face_id模式）+ 产品实物图作为参考输入 + 多背景图像批量注入至ImageScale/Composite节点；ComfyUI: ControlNet Tile（细节强化）+ LoRA微调产品专属特征 + 背景替换工作流；Nano Banana Pro: 多图输入（最多14张产品图）+ 背景提示词切换（如 "on white studio background", "in modern living room"）+ "same product, identical texture and logo" 约束
- **典型场景**: 电商详情页制作、产品宣传册批量生成、AR商品预览素材准备。
- **来源依据**: 案例2「电商产品图批量生成」——强调“单个工作流生成100+张产品图”，核心依赖IP-Adapter保持产品本体一致性，背景通过模板化切换实现；案例5「FLUX.2 [max] 官方页面」明确多图参考下“不同场景和风格中保持角色面部特征一致性”，同理迁移至产品。

### A03: 老照片语义级修复与自然上色
- **功能描述**: 针对严重划痕、褪色、模糊的老照片，在保留原始人物神态、服饰时代特征、场景历史感的前提下，完成去噪、人脸结构重建、纹理增强及符合时代审美的自然色彩还原，避免AI幻觉式上色。
- **判定标准**: 修复后图像中人脸五官比例合理、皮肤纹理有真实颗粒感；色彩符合历史常识（如黑白照中木质家具呈暖棕、金属器物呈冷灰）；无新增不存在的物体或服饰细节。
- **实现方式**: ComfyUI: CodeFormer节点（人脸专用）+ Tile VAE节点（全局细节增强）+ DeOldify节点（基于历史数据集训练的上色模型）+ 手动Mask隔离修复区域；ComfyUI: Stable Diffusion Inpainting节点 + 老照片作为Reference + “vintage photo, natural color, historical accuracy”提示词约束
- **典型场景**: 家族史数字化、博物馆档案修复、怀旧影视素材复原。
- **来源依据**: 案例3「老照片修复与上色」——明确列出CodeFormer、Tile模型、DeOldify三级处理链，且效果强调“清晰自然，色彩真实”。

### A04: 时序连贯的AI动画基础帧生成
- **功能描述**: 生成具备运动连续性、角色姿态逻辑合理、关键帧间形变可控的短序列动画（≥8帧），支持后续插帧或合成，避免常见跳帧、肢体错位、物体闪烁等问题。
- **判定标准**: 序列中相邻帧的光流变化平滑（无突变向量）；角色关节运动符合生物力学（如抬手时肩肘腕联动）；同一物体在序列中位置/大小变化符合透视规律。
- **实现方式**: ComfyUI: AnimateDiff节点（Lora适配器）+ ControlNet Reference（固定角色参考图）+ Motion Lora控制运动幅度；ComfyUI: LoopBack节点构建循环反馈 + KSampler动态种子偏移 + Pose Sequence ControlNet；Midjourney v8: --cref（固定角色图）+ --p（个人化动作模板）+ 批量提示词序列（如 "frame_01: walking forward", "frame_02: lifting knee"）
- **典型场景**: 社交媒体15秒短视频、游戏过场动画草稿、教育类动态演示。
- **来源依据**: 案例4「AI动画短片制作」——指出“结合ControlNet保持角色一致性”并“批量生成后合成视频”，核心解决动画序列的时序稳定性。

### A05: 建筑线稿到多风格效果图的可控转换
- **功能描述**: 将同一张建筑手绘线稿或CAD导出线稿，精准转换为多种指定艺术风格（如“北欧极简”“赛博朋克”“水墨写意”）的效果图，确保建筑结构、门窗比例、空间关系在所有风格中严格一致，仅表皮材质、光影氛围、环境元素按风格迁移。
- **判定标准**: 不同风格图叠加线稿图层时，所有承重墙、开窗位置、楼梯走向完全重合；风格元素不破坏建筑功能逻辑（如赛博朋克风格中霓虹灯不遮挡消防通道）。
- **实现方式**: FLUX.2 [max]: 接地式生成（Grounded Generation）+ 风格提示词（如“北欧极简，参考Nordic Design Archive 2025”）+ 结构守恒约束；ComfyUI: ControlNet Canny节点（线稿输入）+ 多LoRA风格切换（现代/古典/工业LoRA）+ 风格提示词前缀；ComfyUI: T2I-Adapter（线稿编码）+ Style Transfer节点 + 局部重绘（Inpaint）强化风格细节；Midjourney v8: --sref（风格参考图）+ 线稿作为主图输入 + --stylize 100~300 区间精细调控风格强度；Nano Banana Pro: 手绘草图/线稿输入 + 风格提示词 + "maintain the original composition" 强约束
- **典型场景**: 建筑方案汇报、地产营销多版本提案、设计竞赛风格探索。
- **来源依据**: 案例5「建筑效果图快速出图」——明确“使用线稿作为ControlNet输入”“批量切换LoRA生成不同风格”，核心诉求是结构守恒下的风格解耦；FLUX文档2.3“高精度控制（颜色、姿态、构图）”与案例8“历史场景生成”共同支撑其结构守恒能力；用例9「手绘转效果图」直接验证 Nano Banana Pro 的结构守恒能力。

### A06: 工作流驱动的批量自动化生成
- **功能描述**: 将单一图像生成流程封装为可参数化调度的批处理任务，支持按预设规则（如背景列表、视角模板、风格LoRA池）自动遍历组合、生成、命名、保存，全程无需人工干预，满足生产级吞吐需求。
- **判定标准**: 输入N个变量（如5种背景+4种角度=20组），工作流自动触发20次独立生成；输出文件名含变量标识（如`product_red_back.png`）；失败任务可单独重试且不影响队列。
- **实现方式**: FLUX.2 [max]: API端点 `/v1/flux-2-max` + CSV变量注入 + 动态prompt模板；ComfyUI: BatchManager节点 + CSV变量表导入 + 动态路径Save Image节点；ComfyUI: Python API调用（`/prompt`端点）+ 外部脚本循环提交JSON工作流 + 参数注入；Seedream 5.0 Lite: API端点（/v1/seedream）+ 轻量化低延迟（<1.2s）+ 官方API Explorer支持参数化调度（文档4.2 + 技术亮点4）
- **典型场景**: 电商SKU图量产、A/B测试素材生成、设计团队协作素材库建设。
- **来源依据**: 案例2/4/5均强调“批量生成”，文档2.2节明确“批处理优化”和API接口能力，指向自动化调度这一工程底座能力；FLUX API文档4.2明确支持JSON payload，案例6/7均体现参数化生成；Seedream技术规格2.1/2.3 + 技术亮点4“适合集成到设计工具链” + API调用示例。

### A07: 实时语境感知生成
- **功能描述**: 在图像生成过程中，自动执行实时网络搜索，动态获取并融合最新、最相关的外部事实性信息（如实时赛事结果、历史事件细节、流行文化符号、地理环境特征），确保生成内容在时间维度和事实维度上准确可信。
- **判定标准**: 生成图像中包含明确时效性元素（如比分牌、新闻标题、特定日期标识）且与真实世界一致（误差为0）；对模糊提示（如“最近的比赛”）能自主解析时间窗口并返回正确结果；不依赖用户手动提供上下文链接或数据快照。
- **实现方式**: FLUX.2 [max]: 原生“Grounded Generation”机制（无需额外节点/参数，仅需含时效性关键词的prompt）；Nano Banana Pro: 原生 tools=[{"google_search": {}}] + 思考过程可视化（可验证检索逻辑） + 提示词中嵌入时效性指令（如 "show current 2026 NBA Finals score"）；*暂无其他工具原生支持；ComfyUI需外接RAG插件+自定义搜索节点+T2I重绘工作流（复杂度高，非开箱即用）*；Seedream 5.0 Lite: 原生联网检索 + Chain-of-Thought 推理引擎（自动解析时效性语义并驱动构图决策）
- **典型场景**: 新闻配图快速生产、体育营销实时素材、历史教育可视化、政策解读图解。
- **来源依据**: 案例8（柏林墙倒塌历史场景）与案例9（皇马vs曼城比赛成绩）——官方明确标注“模型自动搜索网络获取比赛结果后生成”，且案例8强调“具有历史感的现实主义风格”，说明其不仅调用静态知识库，而是动态检索并理解语境；Nano Banana Pro 用例6（水循环信息图）、用例8（漫画翻译）进一步佐证其搜索接地能力；Seedream用例1 + 技术亮点1&2 + 竞品对比表。

### A08: 高保真图内文字渲染
- **功能描述**: 在生成图像中嵌入指定文字（品牌名、标语、Logo文案、产品参数等），确保文字**笔画清晰、无扭曲变形、语义准确（无错别字/乱码）、排版符合设计规范（如居中/对齐/字号比例）**，达到可直接用于印刷、UI或商标注册的视觉质量。
- **判定标准**: 文字区域放大至200%后仍可清晰辨识每个字符；PS中使用“字符面板”比对，字体粗细/间距/基线位置与提示词指定一致；生成100张同提示图，文字错误率≤0.5%（案例对比表指出其“仍有偶尔拼写错误”，反向验证该能力存在且为优化目标）。
- **实现方式**: FLUX.2 [max]: 原生高token编码器（Mistral-3-24B）+ 4MP分辨率输出 + 文本渲染专用微调头；DALL-E 3: “text_rendering: high”参数 + SVG参考图引导；Midjourney v8: --hd（2048px原生输出）+ --raw 模式 + 文字提示词前置（如 "LOGO: 'AQUA LAGER' in bold sans-serif, centered"）；Nano Banana Pro: 原生多语言高保真文本渲染引擎 + 4K分辨率输出 + 排版约束提示词（如 "Japanese text '夏のセール' in same font style and layout as reference comic panel"） + 竞品对比表实测94–96%准确率
- **典型场景**: 电商主图文案植入、品牌VI系统输出、App界面原型生成、法律文书配图标注。
- **来源依据**: 案例6（AQUA LAGER啤酒瓶悬浮水中，文字渲染清晰）与案例7（生成可商用Logo）——小红书与官网均强调“文字清晰”，且竞品对比表将“文本渲染”列为独立评测维度，证明其作为独立能力被用户高频验证；Nano Banana Pro 用例4（Instagram广告）、用例5（书名）、用例8（漫画翻译）共同构成多语言、多场景、高准确率的文字保真证据链。

### A09: 几何守恒型重纹理
- **功能描述**: 对输入图像中的指定物体或区域，在**严格保持其原始三维几何结构、全局光照方向、表面曲率与阴影投射关系的前提下**，仅替换其表面材质表现（如将哑光塑料变为镜面金属、木质变为大理石、布料变为碳纤维），杜绝因材质变更引发的形变、透视错误或光照逻辑冲突。
- **判定标准**: 替换前后物体轮廓、边缘高光位置、阴影长度/角度、反射内容（如镜面中映出的天花板）完全一致；使用MeshLab等工具导入深度图，两图深度误差<0.5%；材质变化不导致物体“浮起”或“凹陷”等Z轴幻觉。
- **实现方式**: FLUX.2 [max]: 原生“High-fidelity Retexturing”模式（文档2.3明确命名，输入原图+材质描述即可）；ComfyUI: ControlNet Depth + Inpainting节点 + 材质LoRA（需手动对齐深度图）；Stable Diffusion XL: T2I-Adapter（depth）+ IP-Adapter（材质参考图）+ 局部重绘mask；Midjourney v8: --cref（原始材质图）+ --sref（目标材质图）+ 材质描述提示词（如 "retextured with brushed stainless steel, same lighting and curvature"）；Nano Banana Pro: 手绘草图/线稿输入 + 材质描述提示词 + 4K输出保障曲率细节
- **典型场景**: 家具材质方案比选、汽车外观定制预览、工业设计表面工艺验证、虚拟试衣间布料模拟。
- **来源依据**: 案例1（台灯替换，强调“对角度进行了调整”——说明模型理解原始台灯的3D姿态并保持）与案例2（白天转夜间亮灯，需维持灯具结构与光源位置关系）——知乎用户实测反馈聚焦于“角度调整”“亮灯效果自然”，指向几何与光照逻辑的联合守恒，而非简单贴图；Nano Banana Pro 用例9（手绘转效果图）隐含对原始几何的深度理解。

### A10: 单图解剖结构可信锚定
- **功能描述**: 在单张生成图像中，确保角色/生物/复杂人造物的关键解剖或机械结构符合真实世界物理与生物学约束（如五指完整且比例合理、肘关节弯曲方向符合骨骼联动、齿轮咬合无穿模、翅膀骨骼支撑逻辑自洽），杜绝AI常见幻觉性结构错误。
- **判定标准**: 图像中所有可辨识的生物关节（手/足/脊柱/下颌）、机械连接点（铰链/轴承/传动轴）、拓扑关键区域（耳垂与颅骨连接、指甲与指腹过渡）在放大至200%后，结构连续性无断裂、穿插、数量错误或反向扭曲；经专业解剖/机械设计师目检，无需标注即判定为“结构可信”。
- **实现方式**: Midjourney v8: --cref（角色参考图）+ Omni Reference 全向特征对齐机制（自动提取并锚定输入图中的3D结构先验）；Midjourney v8: --raw + --stylize 0（抑制风格化干扰，强化结构忠实度）；ComfyUI: ControlNet OpenPose + Depth + Normal三节点联合约束（需手动配准，非开箱即用）
- **典型场景**: 角色原画终稿交付、医学教育插图生成、工业设备概念图验证、动画绑定前结构审查。
- **来源依据**: V8 vs V7 对比评测明确指出“V8 在解剖结构（手部）方面有明显优势”，且案例1（荒漠游侠）与案例2（水下居民）虽用v6.1生成，但用户反馈“v8生成同一提示词时，手部不再出现六指或熔融状”，说明该能力是v8的核心突破点；官方教程视频《THE BEST TIP for Generating Text in Midjourney V8》中亦强调“Omni Reference 可让模型理解‘手臂不是一根棍子’”。

### A11: 多图协同角色一致性锚定
- **功能描述**: 在单次生成任务中，利用最多14张异构参考图（不同角度、表情、光照、服饰、姿态），自动提取并融合其中共享的身份特征（面部ID、体型比例、标志性配饰、行为习惯），构建统一、鲁棒的角色身份表征，并在目标提示词约束下稳定输出符合该身份的所有变体，解决多源参考间的特征冲突与歧义。
- **判定标准**: 同一提示词下生成的多张图（如正面/侧脸/半身/全身）中，关键身份标识（如左眉痣、耳垂形状、手表表带纹路、惯用手姿势）在像素级（≤2px误差）和语义级（如“always holds coffee cup in right hand”）均保持一致；任意两张参考图输入后，生成结果不出现“特征漂移”（如某图强调圆脸，另一图强调长脸，输出却呈现第三种脸型）。
- **实现方式**: Nano Banana Pro: 原生多图输入（最多14张）+ `tools=[{"google_search": {}}]`（可选，用于校准时代/文化特征）+ 提示词中显式声明身份约束（如 "same person as all reference images, consistent facial structure and body proportions"）；ComfyUI: Multi-IP-Adapter节点组（需手动配置权重与冲突消解逻辑，非开箱即用）；Seedream 5.0 Lite: 原生多图输入（最多14张）+ 自动特征融合与冲突消解机制（文档3.3节“一致性达92%” + 用例3“游戏角色多场景展示”）
- **典型场景**: 虚拟网红全平台形象统一（TikTok/Instagram/官网头图）、跨国品牌代言人多语言广告一致性、影视预演中主角多状态快照生成、法律文书中的当事人形象存证。
- **来源依据**: 使用介绍3.5节“最多14张图片输入，保持角色和品牌一致性”；用例1（AI Influencer创作）强调“full-body photo of a 25-year-old female fashion influencer”需与多张参考图身份对齐；用例10（8人团队照）要求“these 8 people”在合成中各自身份不混淆，反向验证其多图身份分离与锚定能力；Seedream用例3 + 3.3节 + 竞品对比表。

### A12: 实时动态数据可视化
- **功能描述**: 将实时、结构化的外部动态数据（如当前城市气温/湿度、国际金价每盎司报价、单日电影票房TOP3榜单）自动解析为符合人类认知习惯的视觉符号（温度计/箭头/柱状图/徽章），并按设计逻辑（极简/信息图/海报式）无缝嵌入目标图像构图中，确保数据准确、符号可读、布局专业、风格统一。
- **判定标准**: 生成图像中数据数值与真实世界完全一致（误差为0）；所有可视化元素（如温度刻度、金价单位、票房数字字体）符合领域规范且无歧义；同一提示词下重复生成10次，数据符号位置、比例、配色一致性≥95%；无需后期PS即可直接用于新闻资讯页或数据看板。
- **实现方式**: Seedream 5.0 Lite: 原生联网检索 + Chain-of-Thought 推理引擎（自动选择最优图表类型与空间布局）+ 数据符号微调头（文档3.1/技术亮点1&2）；*暂无其他工具原生支持端到端数据→图表→图像闭环；FLUX.2/Nano Banana Pro 需额外人工设计图表模板并作为参考图输入，非自动解析*
- **典型场景**: 新闻客户端实时天气卡片、金融App金价行情图、影视平台票房日榜海报、教育类APP实时科学数据演示。
- **来源依据**: 用例1「实时信息可视化」——明确列出“当前天气预报可视化”“实时金价走势图”“最新票房数据图表”三类典型，并强调“业界首创的联网检索能力”；竞品对比表将“实时联网”单列为核心特性；技术亮点2再次确认“可生成包含实时天气、新闻、金价等动态信息的图像”，且区别于简单文字叠加，强调其“可视化”本质。
atomic_capabilities.md 19 KB Előzmények Nyers

atomic_capabilities.md 19 KB

Előzmények Nyers