# OpenAI gpt-image-2 调研日志 调研目标:搞清楚 OpenAI gpt-image-2 (ChatGPT Images 2.0) 1. 最适合什么场景下使用(写成 skill description 让 routing 能挑到它) 2. 最佳实践 / 具体怎么用 3. 不适合做什么 4. 系统化、要 solid,不能只搜两个帖子就下结论 调研时间:2026-04-27(模型于 2026-04-21 发布,距今 6 天) 调研者:砚(with 用户 Howard) 工作目录:`/Users/sunlit/Profile/analysis/tool-research/openai-image2/` trace_id:`oai-image2-research-001` --- ## Phase 0 — 锚定研究对象 **决策**:先用 WebSearch 确认 "openai image2" 指什么。理由:用户用了非官方简称,新模型且名称约定可能影响后续 query。 **渠道与 query**: - WebSearch: `OpenAI gpt-image-2 release` - WebSearch: `OpenAI image generation API gpt-image-1 vs gpt-image-2 differences` **结果**: - 官名 **gpt-image-2** / 产品名 **ChatGPT Images 2.0** / snapshot ID `gpt-image-2-2026-04-21` - 发布 2026-04-21;ChatGPT/Codex 04-22 全量;API 5 月初开放 - 关键定位:OpenAI 把 o-series reasoning 引入图像生成,号称首个 "Agentic image generation" - Image Arena leaderboard #1(Text-to-Image +242 分领先) - 升级要点:CJK 文字渲染、最多 16 张参考图的 context-aware editing、~3 秒生成(前代 8–18s)、原生 2K/可达 3840×2160、知识截止 2025-12 **反思**: - 模型刚发布 6 天,知乎/xhs/GitHub 已有大量内容,社区帖能补充官方文档之外的实操和踩坑 - 必查:OpenAI 公告 / 模型卡 / cookbook prompting guide - "首个 Agentic image gen" 意味着 prompt 写法和扩散模型时代不同——会自带 reasoning,工程量更轻 - 与 1.5 / 1 / mini 的对比是核心,因为定位/价格分层依赖此 --- ## Phase 1 — 官方层 **决策**:抓官方文档拿到第一手能力清单与 API 用法。这是 SOLID 的基础。 **渠道与 URL**: - `openai.com/index/introducing-chatgpt-images-2-0/`(403 — 官方公告页拒访) - `developers.openai.com/api/docs/models/gpt-image-2`(模型卡)✅ - `developers.openai.com/api/docs/guides/image-generation`(API 指南)✅ - `developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide`(prompting 最佳实践)✅ - `community.openai.com/t/introducing-gpt-image-2-available-today-...`(官方在 Dev Forum 的发布帖 + 用户回复)✅ **关键发现**: - **支持的模态**:text + image input → image output。Endpoint:`v1/images/generations` + `v1/images/edits`(含 inpainting/mask) - **不支持**:streaming / function calling / structured outputs / fine-tuning / distillation / predicted outputs - **API 参数**: - `size`: 1024×1024 / 1536×1024 / 2048×2048 / 3840×2160 / `auto`(最大边 3840px,比例 ≤ 3:1) - `quality`: low / medium / high / auto(high 用于密集文字与 close-up portrait) - `format`: png / jpeg / webp(JPEG 最快) - `output_compression`: 0–100(仅 jpeg/webp) - `moderation`: auto / low(控制内容过滤强度) - `n`: 一次出多张 - **不支持** `input_fidelity`(前代 1.5/1 才有;做编辑时无该参数) - **价格**:image input $8/M tokens,cached input $2/M,output $30/M;text input $5/M,cached $1.25/M,output $10/M。具体到单张:1024×1024 low ≈ $0.006 - **速率限制**:Tier 1 仅 100k TPM / **5 IPM**;Tier 5 才 8M TPM / 250 IPM。Enterprise/Edu 暂未开放 - **Mask 要求**:image 与 mask 同格式同尺寸 (<50MB),mask 需 alpha channel - **可能需要 organization verification** 才能用 - **复杂 prompt 处理时间**:可达 2 分钟(不是号称的 3 秒;3 秒是简单单图) - **Cookbook prompting guide** 的关键模式: - prompt 结构:背景/场景 → 主体 → 关键细节 → 约束 - **文字**:放引号或 ALL CAPS;棘手单词逐字母拼写 - **构图**:明确取景/视角/位置 - **人像**:身体范围 + 视线方向 - **约束(critical)**:明确排除"no watermark / no logos";编辑用"只改 X,其他保留",每次迭代都重复保留清单 - **多参考图**:按 index 命名 ("Image 1: 产品图… Image 2: 风格参考") - **迭代策略**:干净 base prompt → 小步单点修改,避免长 prompt - **模型档位选择**:gpt-image-2 默认;1.5/1 仅做 backward compatibility 与 input_fidelity;mini 用于高吞吐 / 草稿 - 官方明确承认的弱点:**text rendering / consistency across generations / precise element composition** 仍是难点(虽有改进) - Dev Forum 抱怨:rate limit "highest 250 IPM" 对比其他服务"20x 差距";Codex OAuth token 只支持特定 endpoint **反思**: - 官方文档已经把"最适合的场景"和"参数怎么调"列清晰了,但缺少真实使用对比 - 5 IPM 的 Tier 1 限制非常严,对生产工作流是关键约束 - prompting guide 的"先写干净的,再小步迭代"是个 strong opinion,与扩散模型时代"塞满 prompt"的习惯相反——值得作为最佳实践写入 --- ## Phase 2 — 专业评测层 **决策**:拿 TechCrunch / VentureBeat / Wikipedia / 第三方评测的 hands-on 视角,验证官方说法且找出官方不会说的限制。 **渠道与 URL**: - TechCrunch 评测 ✅ - VentureBeat(429 限流,未取到) - `en.wikipedia.org/wiki/GPT_Image` ✅ - `help.apiyi.com/.../gpt-image-2-vs-gpt-image-1-5-upgrade-8-features-en.html` ✅(8 项升级清单) - `createvision.ai/guides/gpt-image-2-complete-guide` ✅(含明确 "NOT optimal for" 段落) **关键发现**: 8 项升级(apiyi.com,需注意是 preview 阶段数据): 1. **文字渲染**:从 1–5 词标题 → ~99% character-level accuracy 2. **生成速度**:8–18s → ~3s(简单图) 3. **最大分辨率**:1536×1024 → 2048×2048(API 实际可达 3840×2160) 4. **新增 16:9 widescreen**(之前只有 1:1 / 4:3 / 3:4) 5. **真实感**:消除"AI 黄滤镜",手部解剖与反射改善(**手仍非完美**) 6. **世界知识**:能正确画 IKEA 店、YouTube UI、Minecraft 场景等 7. **多语言文本**:CJK + RTL(阿拉伯/希伯来)渲染清晰 8. **API 兼容**:从两阶段 → 单阶段推理;与 gpt-image-1.5 API 兼容 CreateVision 给的"**NOT optimal for**"清单(关键!): - 纯写实人像 → Nano Banana Pro 更好 - 速度优先批量生成 → Nano Banana Pro 更快更便宜 - 风格化编辑插画 → Seedream 5 表现更好 TechCrunch 实测: - 餐厅菜单等密集文字"读得通"(DALL-E 3 时代会出 "enchuita" 这种乱码) - 多面板漫画类复杂任务**仍需"几分钟"**(不是号称 3 秒) - 知识截止 2025-12 影响最近事件 Wikipedia 串起完整时间线: - gpt-image-1(2025-03-25,因供需失衡 GPU "melting",130M 用户、700M 张图首周) - gpt-image-1-mini(2025-10-06,便宜 80%) - gpt-image-1.5(2025-12-16,4× 加速、20% 降价、但艺术风格倒退、多人脸/非拉丁文仍弱) - gpt-image-2(2026-04-21) - 历史短板:over-sharpening、warm color bias(v1.5 部分修)、多人脸、中文/阿拉伯/希伯来文(v2 修)、人物姿势/物体重叠 **反思**: - "什么时候不要用"清单是 routing-critical:调研需求里第 3 项就是这个 - "preview 数据"标注提醒——这些 benchmark 可能与 GA 版本有差异 - VentureBeat 没拿到没关系,已通过其他源覆盖了 multilingual / infographics / slides / maps / manga 用例 --- ## Phase 3 — 开发者社区层(GitHub / OpenAI community) **决策**:GitHub 看 prompts 库 + 实战项目,能反映创作者怎么用。OpenAI Forum 看技术细节。 **渠道与 query**: - content-search github "gpt-image-2" → 返回 20 条 - content-search github 高 star 详细看 #9(freestylefly 工业级模板库) **关键发现**: - GitHub 出现至少 4 个高 star 的 awesome-prompts 仓库: - `EvoLinkAI/awesome-gpt-image-2-prompts`(5786⭐ — 最大、按用例分类) - `YouMind-OpenLab/awesome-gpt-image-2`(3039⭐ "World's largest, 2000+, 每日更新") - `Anil-matcha/Awesome-GPT-Image-2-API-Prompts`(1714⭐ — 针对 API 用户) - `freestylefly/awesome-gpt-image-2`(917⭐ — "Prompt as Code" 工业级模板库,13 套模板,329 案例逆向工程) - 应用层:`Jamailar/RedBox`(820⭐ 自媒体小红书工作台用 gpt-image-2 出图);`432539/gpt2api`(1114⭐ 反向网关) - Skill 集成:`ConardLi/garden-skills` 已把 gpt-image-2 集成进 Claude/Skill 工作流 - 同期项目:`stepfun-ai/Step1X-Edit`(开源 image edit 模型,对标 gpt-image-2 的 edit) **反思**: - prompts 库的繁荣度提示了一个关键事实:image-2 受益于"prompt 工程化",而不是像扩散模型那样靠 negative prompt + 大量 weight tuning - Skill 集成案例可参考——本次调研结果适合产出一个 skill description --- ## Phase 4 — 中文社区层(知乎 / 小红书 / 公众号 / 头条) **决策**:中文社区提供大量真实用户的实操、踩坑、对比,是补充官方"什么场景"和"什么不行"最厚的层。 **渠道与 query**: - content-search zhihu "gpt-image-2" → 20 条,深入 detail 4 篇 - content-search xhs "gpt image 2" → 10 条,深入 detail 3 篇 - content-search gzh "gpt-image-2" → 空(关键词或接口问题,未深究) **关键发现**(按 source 浓缩): **知乎"灰度内测"测评(647 赞,作者 卡尔&阿汤)**: - vs Nano Banana 2 的硬核 PK,结论: - 文字密集设计(招聘海报、咖啡海报)— image-2 完胜 - 产品展示电商页 — image-2 像"淘宝详情页",Banana 像"插图" - 数学课本截图 — image-2 像"扫描课件",Banana 像"插图" - 真实世界还原(喜茶/便利店/家庭厨房) — image-2 细节更对(建设银行围裙、佳琦直播间角落) - 黑悟空游戏截图 — image-2 还原原游戏第一人称视角 - UI 复刻(微信/电商 app/音乐播放器) — image-2 多数胜,少数平 - 表情包/动漫人物一致性 — 不分上下 - 真人一致性 — Banana 略胜(image-2 对亚洲人偏弱) - 图片翻译稳定性 — image-2 胜(Banana 多次抽卡) **知乎"实测设计行业完蛋了"(386 赞)**: - 总结四大跃迁:**文字渲染、世界知识、修改精准度、审美** - 离谱级世界知识例子:YouTube 首页 / 小红书 Grok 假个人主页(128.6 万粉、AI 来自 xAI 的人设)/ 影视飓风首页 / B 站界面 / Mariah Carey 90 年代生涯长图(信息密度+美感+准确性"三角组合"以前只有专业设计师能做到) - 一句 prompt 出"电商详情页"完整长图——"以前要两三天的活,两句话搞定" - 引用大头帮主 2015 年知乎答:"设计师不是画图员"——结论:画图员时代结束,设计师/思辨者时代刚开始 - 明确提及:**对亚洲人的一致性还不够好** **知乎"提示词写法"(288 赞,饭米粒)**: - 给出 12+ 套高完成度提示词模板(涵盖中式美学/涂鸦速写/宋代工笔/皮克斯 3D/3D 微缩品牌店/手绘旅行地图/儿童绘本/复古旅行海报) - 共性结构:风格关键词 + 构图描述 + 主题占位符 + 文字落款 + 排除清单 + 比例 - 模板用 `{城市名} / {人物组合} / {品牌名}` 这类参数化占位符——直接 prompt-as-code 模式 **小红书"高清化展板"(3907 赞)**: - **关键工作流**:单图分辨率不够时,"切块 → 分别精修 → PS 拼回 → 用混合带融合 → 手动微调" - 核心 prompt:"这是竞赛展板,请分别生成高清版本,文字清晰一点,图片清晰一点,**风格不变,尺寸不变**" - 这是社区对单图 max 分辨率 (~3840×2160) 限制的最佳实战 workaround **小红书"奇怪纹路"(205 赞)**: - 有用户反映多边形纹路("降噪不彻底"),并非个例——质量偶发问题 **小红书"山西封神"(795 赞)+ "电商详情页教学"(395 赞)+ "设计展板"(1575 赞)+ "13MB 航拍图"(1438 赞)**: - 反复出现的爆款使用场景:地区/城市文旅宣传图、电商详情页、建筑/景观/规划展板、超大幅面航拍图 **反思**: - 中文社区的"四大跃迁"框架(文字/世界知识/修改/审美)和官方"text rendering / world knowledge / instruction following / visual reasoning"完全对得上,互证了官方说法 - "切块再拼"的 workaround 提示了:高分辨率单图仍是 hard limit - 中文社区的强场景:**信息密度大的设计稿(招聘/电商/课本/展板)+ 中文文字 + 真实世界 UI 复刻** 这是与 Nano Banana Pro 拉开差距的位置 --- ## Phase 5 — 视频与短文层(X / B 站 / YouTube) **决策**:X 看一手国际反应与 combo 工作流;B 站补中文视频实测视角。 **渠道与 query**: - content-search bili "GPT-image-2" → 20 条(list level) - content-search x "gpt-image-2" → 20 条(含 like/comment 数) **关键发现**: **X 平台高赞内容(multi-tweet, hands-on)**: - `@0xInk_` 11891 赞:"Just created my own AAA game with GPT image 2 and Seedance 2" - `@rileybrown` 8179 赞:"GPT-Image-2... wtf... how"(震惊体) - `@arena` 5718 赞:Image Arena #1 announcement - `@dreamwieber` 4230 赞:Codex+GPT 5.5 一发命中(不是 image,但显示用户兴奋度) - `@D_studioproject` 3226 赞:GPT Image 2 + Seedance 2.0 anime pipeline - `@HAL2400AI` `@oggii_0` `@Ciri_ai` `@iX00AI`:**反复出现的 GPT Image 2 + Seedance 2.0 工作流**——用 image-2 出 16-frame 动作 sheet → Seedance 2.0 生成视频 - `@OpenAIDevs` 引用 OpenArt:**"gpt-image-2 bridges the gap between text and visual planning"**——visual planning 是核心定位语 - `@higgsfield` 1306 赞:image-2.0 接入 Higgsfield,"perfect text rendering and ChatGPT-level reasoning" - `@Angaisb_` 2179 赞:GPT Image 2 + Codex 强组合(动画网站) **B 站视频核心信号**(list 标题反映创作者偏好): - "32 分类 vs nano-banana 2"——大量 systematic 对比 - "comfyui 调用"——本地工作流集成 - "GPT Image 2 + Seedance 2.0 王炸组合"——视频管线 - "UI/作品集/品牌设计 一套搞定"——设计师向 - "PPT、vibe coding、短剧、广告" 多元玩法 - "国内免费、不翻墙使用"——访问/合规需求显著(暗示中国市场绕路成本) **反思**: - X 上的 dominant 工作流是 image-2 → Seedance 视频,已成事实——这扩展了"什么时候用 image-2"的定义:不仅是出最终图,还是视频的关键 frame keyframer - "visual planning" 是非常好的 routing 关键词 - 中国市场访问成本高的事实,对实际部署有实操影响 --- ## Phase 6 — 整合分析 **核心定位(一句话)**: gpt-image-2 是 OpenAI 2026-04-21 发布的 SOTA 图像生成 + 编辑模型,最大区分点是**生成前会做 reasoning + visual planning**,因此在文字密集设计、真实世界 UI/品牌复刻、多语言文本(含 CJK/RTL)、信息图、和参考图编辑(最多 16 张)这五类高约束任务上,相比扩散模型一代有质的跃迁。 **最适合的场景(routing keywords)**: 1. 需要**渲染清晰文字**的图(海报/招聘启事/电商详情页/试卷/课件/数据长图/包装) 2. 需要**复刻真实世界 UI/界面**(YouTube/小红书/B 站/微信/淘宝/直播间假截图、品牌官网 mockup) 3. **多语言文本**图(中日韩 + 阿拉伯/希伯来) 4. **信息密度大** + 需要美感的**信息图、infographic、时间线、图鉴** 5. **基于参考图的精修**(产品场景图、风格化复刻、白底产品主图、详情页长图)— 最多 16 reference 6. **多面板漫画 / storyboard / keyframer for video**(特别是配 Seedance 2.0 这类视频模型) 7. **agent / 自动化场景下的"一次直出"图**(reasoning 让 prompt 工程量更轻) **最佳实践**: - **Prompt 结构**:背景/场景 → 主体 → 关键细节 → 约束 - **文字**:引号或 ALL CAPS 包住要写的字;棘手词逐字母拼写;medium/high quality - **构图**:明确取景(close-up/wide)、视角、元素位置 - **人像**:明确身体范围、视线方向、身份保留 lock - **约束(最关键)**:明确排除"no watermark / no logos";编辑时"只改 X,其他保留 + 每次迭代重复保留清单" - **多参考图**:按 index 命名("Image 1: 产品图… Image 2: 风格参考"),描述交互("apply Image 2 style to Image 1") - **迭代**:从干净 base prompt 开始,小步单点修改 — **不要塞满 prompt** - **超高分辨率工作流**:原生最大 3840×2160;要更大用社区方法"切块 → 分别精修 → PS/工具拼回 → 用混合带融合" - **API**:`v1/images/generations`(生成)+ `v1/images/edits`(编辑);size/quality/format/n/moderation 可调;mask 需 alpha channel - **价格优化**:低密度 / 草稿用 quality=low;密集文字与人像用 high;缓存输入 -75% 价 - **Combo workflow**:image-2 + Seedance 2.0(视频);image-2 + Codex(动画网站/产品) **不适合的场景**: - **极致写实人像 / 一致性**:亚洲人脸一致性偏弱(Nano Banana Pro 更优) - **复杂手部细节**:要素一多,手部崩概率显著(社区共识) - **批量速度优先**:单图 ~3s 但复杂可达 1–2 分钟;批量草稿用 gpt-image-1-mini 更便宜更快 - **风格化编辑插画**:CreateVision 评测指出 Seedream 5 更好 - **流式 / function calling / structured outputs / fine-tuning**:API 不支持 - **`input_fidelity` 参数**:本代不支持(需要的话用 1.5) - **极高速率生产**:Tier 1 仅 5 IPM;Enterprise/Edu 暂未开放 - **质量稳定性**:偶发"多边形纹路"等降噪问题 - **最近事件**:知识截止 2025-12 **Skill description 候选语(用户需求 1)**: > 用 OpenAI gpt-image-2 在 ChatGPT 或 OpenAI Image API 中**生成或编辑**图像。最适合:①带大量清晰文字的设计稿(招聘海报/电商详情页/课件/包装/多语言图,CJK/RTL 字符 99% 准确);②复刻真实世界 UI 与品牌界面(伪造逼真的小红书/B 站/微信/YouTube 截图、官网 mockup);③信息密度大的 infographic / 时间线 / 图鉴;④参考图驱动的精修(最多 16 张参考,做一致性控制、风格迁移、白底产品图、详情页长图);⑤视频 storyboard / keyframer(配 Seedance 等视频模型)。**不要**用于:极致一致性的亚洲人写实人像(Nano Banana Pro 更稳)、批量草稿速度优先(gpt-image-1-mini 更便宜)、风格化插画(Seedream 5 更优)、需要 fine-tune 或 streaming 的场景。 --- ## 反思总览(debrief) **调研有效率**: - 5 个 phase 各 1–2 个主源 + 多个补源,互证强: - 官方 prompting guide 的"约束/迭代/小步修改"和知乎"卡尔的硬核 PK"里 image-2 出图的稳定度对得上 - apiyi 8 项升级和 createvision NOT optimal 清单都被知乎/xhs 实测覆盖 - 中文社区对"中文渲染 + UI 复刻 + 信息密度"的 use case 强化了 routing keyword - X + B 站的 "+Seedance 2.0" 组合是 surprise — 扩展了 image-2 的定位 - 没浪费在低质源:xhs 的 4k 赞 "切块再拼" 教程是工程层面的实战金块 **没做到的 / 已知缺口**: - VentureBeat 多次 429,未取到 multilingual + manga + slides + maps 的具体例子(已通过其他源覆盖部分) - OpenAI 公告页 403,原文措辞少了点 - 公众号搜索接口返回空,未补到这类长文 + 微信生态视角 - API 真实接入示例只在官方 cookbook 看到,没找到独立项目实测的 latency/cost benchmark - 没测 Reddit(site:reddit.com 搜索为空,可能是 query 问题;时间已够,未深挖) **对调研方法的反思**: - "**先锚定再分层**"很有效:phase 0 把"image2"= gpt-image-2 锁死后,所有后续 query 都精准了 - 中文社区的 detail(即文章正文)密度极高(一篇知乎覆盖 30+ 张 case),用 detail 接口拿全文比一个个 fetch 网页要快 - trace_id 共享让 search → detail 完整衔接(验证:5 次 detail 均成功 hit cache) - 最大 lesson:prompts 库(GitHub awesome-*)的 star 数变化趋势是个 signal,下次研究新模型可以先扫一遍 awesome 仓库的成长曲线