OpenAI gpt-image-2 调研日志

调研目标：搞清楚 OpenAI gpt-image-2 (ChatGPT Images 2.0)

最适合什么场景下使用（写成 skill description 让 routing 能挑到它）
最佳实践 / 具体怎么用
不适合做什么
系统化、要 solid，不能只搜两个帖子就下结论

调研时间：2026-04-27（模型于 2026-04-21 发布，距今 6 天）调研者：砚（with 用户 Howard）工作目录：/Users/sunlit/Profile/analysis/tool-research/openai-image2/ trace_id：oai-image2-research-001

Phase 0 — 锚定研究对象

决策：先用 WebSearch 确认 "openai image2" 指什么。理由：用户用了非官方简称，新模型且名称约定可能影响后续 query。

渠道与 query：

WebSearch: OpenAI gpt-image-2 release
WebSearch: OpenAI image generation API gpt-image-1 vs gpt-image-2 differences

结果：

官名 gpt-image-2 / 产品名 ChatGPT Images 2.0 / snapshot ID gpt-image-2-2026-04-21
发布 2026-04-21；ChatGPT/Codex 04-22 全量；API 5 月初开放
关键定位：OpenAI 把 o-series reasoning 引入图像生成，号称首个 "Agentic image generation"
Image Arena leaderboard #1（Text-to-Image +242 分领先）
升级要点：CJK 文字渲染、最多 16 张参考图的 context-aware editing、~3 秒生成（前代 8–18s）、原生 2K/可达 3840×2160、知识截止 2025-12

反思：

模型刚发布 6 天，知乎/xhs/GitHub 已有大量内容，社区帖能补充官方文档之外的实操和踩坑
必查：OpenAI 公告 / 模型卡 / cookbook prompting guide
"首个 Agentic image gen" 意味着 prompt 写法和扩散模型时代不同——会自带 reasoning，工程量更轻
与 1.5 / 1 / mini 的对比是核心，因为定位/价格分层依赖此

Phase 1 — 官方层

决策：抓官方文档拿到第一手能力清单与 API 用法。这是 SOLID 的基础。

渠道与 URL：

openai.com/index/introducing-chatgpt-images-2-0/（403 — 官方公告页拒访）
developers.openai.com/api/docs/models/gpt-image-2（模型卡）✅
developers.openai.com/api/docs/guides/image-generation（API 指南）✅
developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide（prompting 最佳实践）✅
community.openai.com/t/introducing-gpt-image-2-available-today-...（官方在 Dev Forum 的发布帖 + 用户回复）✅

关键发现：

支持的模态：text + image input → image output。Endpoint：v1/images/generations + v1/images/edits（含 inpainting/mask）
不支持：streaming / function calling / structured outputs / fine-tuning / distillation / predicted outputs
API 参数：
- size: 1024×1024 / 1536×1024 / 2048×2048 / 3840×2160 / auto（最大边 3840px，比例 ≤ 3:1）
- quality: low / medium / high / auto（high 用于密集文字与 close-up portrait）
- format: png / jpeg / webp（JPEG 最快）
- output_compression: 0–100（仅 jpeg/webp）
- moderation: auto / low（控制内容过滤强度）
- n: 一次出多张
- 不支持 input_fidelity（前代 1.5/1 才有；做编辑时无该参数）
价格：image input $8/M tokens，cached input $2/M，output $30/M；text input $5/M，cached $1.25/M，output $10/M。具体到单张：1024×1024 low ≈ $0.006
速率限制：Tier 1 仅 100k TPM / 5 IPM；Tier 5 才 8M TPM / 250 IPM。Enterprise/Edu 暂未开放
Mask 要求：image 与 mask 同格式同尺寸 (<50MB)，mask 需 alpha channel
可能需要 organization verification 才能用
复杂 prompt 处理时间：可达 2 分钟（不是号称的 3 秒；3 秒是简单单图）
Cookbook prompting guide 的关键模式：
- prompt 结构：背景/场景 → 主体 → 关键细节 → 约束
- 文字：放引号或 ALL CAPS；棘手单词逐字母拼写
- 构图：明确取景/视角/位置
- 人像：身体范围 + 视线方向
- 约束（critical）：明确排除"no watermark / no logos"；编辑用"只改 X，其他保留"，每次迭代都重复保留清单
- 多参考图：按 index 命名 ("Image 1: 产品图… Image 2: 风格参考")
- 迭代策略：干净 base prompt → 小步单点修改，避免长 prompt
- 模型档位选择：gpt-image-2 默认；1.5/1 仅做 backward compatibility 与 input_fidelity；mini 用于高吞吐 / 草稿
官方明确承认的弱点：text rendering / consistency across generations / precise element composition 仍是难点（虽有改进）
Dev Forum 抱怨：rate limit "highest 250 IPM" 对比其他服务"20x 差距"；Codex OAuth token 只支持特定 endpoint

反思：

官方文档已经把"最适合的场景"和"参数怎么调"列清晰了，但缺少真实使用对比
5 IPM 的 Tier 1 限制非常严，对生产工作流是关键约束
prompting guide 的"先写干净的，再小步迭代"是个 strong opinion，与扩散模型时代"塞满 prompt"的习惯相反——值得作为最佳实践写入

Phase 2 — 专业评测层

决策：拿 TechCrunch / VentureBeat / Wikipedia / 第三方评测的 hands-on 视角，验证官方说法且找出官方不会说的限制。

渠道与 URL：

TechCrunch 评测 ✅
VentureBeat（429 限流，未取到）
en.wikipedia.org/wiki/GPT_Image ✅
help.apiyi.com/.../gpt-image-2-vs-gpt-image-1-5-upgrade-8-features-en.html ✅（8 项升级清单）
createvision.ai/guides/gpt-image-2-complete-guide ✅（含明确 "NOT optimal for" 段落）

关键发现：

8 项升级（apiyi.com，需注意是 preview 阶段数据）：

文字渲染：从 1–5 词标题 → ~99% character-level accuracy
生成速度：8–18s → ~3s（简单图）
最大分辨率：1536×1024 → 2048×2048（API 实际可达 3840×2160）
新增 16:9 widescreen（之前只有 1:1 / 4:3 / 3:4）
真实感：消除"AI 黄滤镜"，手部解剖与反射改善（手仍非完美）
世界知识：能正确画 IKEA 店、YouTube UI、Minecraft 场景等
多语言文本：CJK + RTL（阿拉伯/希伯来）渲染清晰
API 兼容：从两阶段 → 单阶段推理；与 gpt-image-1.5 API 兼容

CreateVision 给的"NOT optimal for"清单（关键！）：

纯写实人像 → Nano Banana Pro 更好
速度优先批量生成 → Nano Banana Pro 更快更便宜
风格化编辑插画 → Seedream 5 表现更好

TechCrunch 实测：

餐厅菜单等密集文字"读得通"（DALL-E 3 时代会出 "enchuita" 这种乱码）
多面板漫画类复杂任务仍需"几分钟"（不是号称 3 秒）
知识截止 2025-12 影响最近事件

Wikipedia 串起完整时间线：

gpt-image-1（2025-03-25，因供需失衡 GPU "melting"，130M 用户、700M 张图首周）
gpt-image-1-mini（2025-10-06，便宜 80%）
gpt-image-1.5（2025-12-16，4× 加速、20% 降价、但艺术风格倒退、多人脸/非拉丁文仍弱）
gpt-image-2（2026-04-21）
历史短板：over-sharpening、warm color bias（v1.5 部分修）、多人脸、中文/阿拉伯/希伯来文（v2 修）、人物姿势/物体重叠

反思：

"什么时候不要用"清单是 routing-critical：调研需求里第 3 项就是这个
"preview 数据"标注提醒——这些 benchmark 可能与 GA 版本有差异
VentureBeat 没拿到没关系，已通过其他源覆盖了 multilingual / infographics / slides / maps / manga 用例

Phase 3 — 开发者社区层（GitHub / OpenAI community）

决策：GitHub 看 prompts 库 + 实战项目，能反映创作者怎么用。OpenAI Forum 看技术细节。

渠道与 query：

content-search github "gpt-image-2" → 返回 20 条
content-search github 高 star 详细看 #9（freestylefly 工业级模板库）

关键发现：

GitHub 出现至少 4 个高 star 的 awesome-prompts 仓库：
- EvoLinkAI/awesome-gpt-image-2-prompts（5786⭐ — 最大、按用例分类）
- YouMind-OpenLab/awesome-gpt-image-2（3039⭐ "World's largest, 2000+, 每日更新"）
- Anil-matcha/Awesome-GPT-Image-2-API-Prompts（1714⭐ — 针对 API 用户）
- freestylefly/awesome-gpt-image-2（917⭐ — "Prompt as Code" 工业级模板库，13 套模板，329 案例逆向工程）
应用层：Jamailar/RedBox（820⭐ 自媒体小红书工作台用 gpt-image-2 出图）；432539/gpt2api（1114⭐ 反向网关）
Skill 集成：ConardLi/garden-skills 已把 gpt-image-2 集成进 Claude/Skill 工作流
同期项目：stepfun-ai/Step1X-Edit（开源 image edit 模型，对标 gpt-image-2 的 edit）

反思：

prompts 库的繁荣度提示了一个关键事实：image-2 受益于"prompt 工程化"，而不是像扩散模型那样靠 negative prompt + 大量 weight tuning
Skill 集成案例可参考——本次调研结果适合产出一个 skill description

Phase 4 — 中文社区层（知乎 / 小红书 / 公众号 / 头条）

决策：中文社区提供大量真实用户的实操、踩坑、对比，是补充官方"什么场景"和"什么不行"最厚的层。

渠道与 query：

content-search zhihu "gpt-image-2" → 20 条，深入 detail 4 篇
content-search xhs "gpt image 2" → 10 条，深入 detail 3 篇
content-search gzh "gpt-image-2" → 空（关键词或接口问题，未深究）

关键发现（按 source 浓缩）：

知乎"灰度内测"测评（647 赞，作者卡尔&阿汤）：

vs Nano Banana 2 的硬核 PK，结论：
- 文字密集设计（招聘海报、咖啡海报）— image-2 完胜
- 产品展示电商页 — image-2 像"淘宝详情页"，Banana 像"插图"
- 数学课本截图 — image-2 像"扫描课件"，Banana 像"插图"
- 真实世界还原（喜茶/便利店/家庭厨房） — image-2 细节更对（建设银行围裙、佳琦直播间角落）
- 黑悟空游戏截图 — image-2 还原原游戏第一人称视角
- UI 复刻（微信/电商 app/音乐播放器） — image-2 多数胜，少数平
- 表情包/动漫人物一致性 — 不分上下
- 真人一致性 — Banana 略胜（image-2 对亚洲人偏弱）
- 图片翻译稳定性 — image-2 胜（Banana 多次抽卡）

知乎"实测设计行业完蛋了"（386 赞）：

总结四大跃迁：文字渲染、世界知识、修改精准度、审美
离谱级世界知识例子：YouTube 首页 / 小红书 Grok 假个人主页（128.6 万粉、AI 来自 xAI 的人设）/ 影视飓风首页 / B 站界面 / Mariah Carey 90 年代生涯长图（信息密度+美感+准确性"三角组合"以前只有专业设计师能做到）
一句 prompt 出"电商详情页"完整长图——"以前要两三天的活，两句话搞定"
引用大头帮主 2015 年知乎答："设计师不是画图员"——结论：画图员时代结束，设计师/思辨者时代刚开始
明确提及：对亚洲人的一致性还不够好

知乎"提示词写法"（288 赞，饭米粒）：

给出 12+ 套高完成度提示词模板（涵盖中式美学/涂鸦速写/宋代工笔/皮克斯 3D/3D 微缩品牌店/手绘旅行地图/儿童绘本/复古旅行海报）
共性结构：风格关键词 + 构图描述 + 主题占位符 + 文字落款 + 排除清单 + 比例
模板用 {城市名} / {人物组合} / {品牌名} 这类参数化占位符——直接 prompt-as-code 模式

小红书"高清化展板"（3907 赞）：

关键工作流：单图分辨率不够时，"切块 → 分别精修 → PS 拼回 → 用混合带融合 → 手动微调"
核心 prompt："这是竞赛展板，请分别生成高清版本，文字清晰一点，图片清晰一点，风格不变，尺寸不变"
这是社区对单图 max 分辨率 (~3840×2160) 限制的最佳实战 workaround

小红书"奇怪纹路"（205 赞）：

有用户反映多边形纹路（"降噪不彻底"），并非个例——质量偶发问题

小红书"山西封神"（795 赞）+ "电商详情页教学"（395 赞）+ "设计展板"（1575 赞）+ "13MB 航拍图"（1438 赞）：

反复出现的爆款使用场景：地区/城市文旅宣传图、电商详情页、建筑/景观/规划展板、超大幅面航拍图

反思：

中文社区的"四大跃迁"框架（文字/世界知识/修改/审美）和官方"text rendering / world knowledge / instruction following / visual reasoning"完全对得上，互证了官方说法
"切块再拼"的 workaround 提示了：高分辨率单图仍是 hard limit
中文社区的强场景：信息密度大的设计稿（招聘/电商/课本/展板）+ 中文文字 + 真实世界 UI 复刻 这是与 Nano Banana Pro 拉开差距的位置

Phase 5 — 视频与短文层（X / B 站 / YouTube）

决策：X 看一手国际反应与 combo 工作流；B 站补中文视频实测视角。

渠道与 query：

content-search bili "GPT-image-2" → 20 条（list level）
content-search x "gpt-image-2" → 20 条（含 like/comment 数）

关键发现：

X 平台高赞内容（multi-tweet, hands-on）：

@0xInk_ 11891 赞："Just created my own AAA game with GPT image 2 and Seedance 2"
@rileybrown 8179 赞："GPT-Image-2... wtf... how"（震惊体）
@arena 5718 赞：Image Arena #1 announcement
@dreamwieber 4230 赞：Codex+GPT 5.5 一发命中（不是 image，但显示用户兴奋度）
@D_studioproject 3226 赞：GPT Image 2 + Seedance 2.0 anime pipeline
@HAL2400AI @oggii_0 @Ciri_ai @iX00AI：反复出现的 GPT Image 2 + Seedance 2.0 工作流——用 image-2 出 16-frame 动作 sheet → Seedance 2.0 生成视频
@OpenAIDevs 引用 OpenArt："gpt-image-2 bridges the gap between text and visual planning"——visual planning 是核心定位语
@higgsfield 1306 赞：image-2.0 接入 Higgsfield，"perfect text rendering and ChatGPT-level reasoning"
@Angaisb_ 2179 赞：GPT Image 2 + Codex 强组合（动画网站）

B 站视频核心信号（list 标题反映创作者偏好）：

"32 分类 vs nano-banana 2"——大量 systematic 对比
"comfyui 调用"——本地工作流集成
"GPT Image 2 + Seedance 2.0 王炸组合"——视频管线
"UI/作品集/品牌设计一套搞定"——设计师向
"PPT、vibe coding、短剧、广告" 多元玩法
"国内免费、不翻墙使用"——访问/合规需求显著（暗示中国市场绕路成本）

反思：

X 上的 dominant 工作流是 image-2 → Seedance 视频，已成事实——这扩展了"什么时候用 image-2"的定义：不仅是出最终图，还是视频的关键 frame keyframer
"visual planning" 是非常好的 routing 关键词
中国市场访问成本高的事实，对实际部署有实操影响

Phase 6 — 整合分析

核心定位（一句话）： gpt-image-2 是 OpenAI 2026-04-21 发布的 SOTA 图像生成 + 编辑模型，最大区分点是生成前会做 reasoning + visual planning，因此在文字密集设计、真实世界 UI/品牌复刻、多语言文本（含 CJK/RTL）、信息图、和参考图编辑（最多 16 张）这五类高约束任务上，相比扩散模型一代有质的跃迁。

最适合的场景（routing keywords）：

需要渲染清晰文字的图（海报/招聘启事/电商详情页/试卷/课件/数据长图/包装）
需要复刻真实世界 UI/界面（YouTube/小红书/B 站/微信/淘宝/直播间假截图、品牌官网 mockup）
多语言文本图（中日韩 + 阿拉伯/希伯来）
信息密度大 + 需要美感的信息图、infographic、时间线、图鉴
基于参考图的精修（产品场景图、风格化复刻、白底产品主图、详情页长图）— 最多 16 reference
多面板漫画 / storyboard / keyframer for video（特别是配 Seedance 2.0 这类视频模型）
agent / 自动化场景下的"一次直出"图（reasoning 让 prompt 工程量更轻）

最佳实践：

Prompt 结构：背景/场景 → 主体 → 关键细节 → 约束
文字：引号或 ALL CAPS 包住要写的字；棘手词逐字母拼写；medium/high quality
构图：明确取景（close-up/wide）、视角、元素位置
人像：明确身体范围、视线方向、身份保留 lock
约束（最关键）：明确排除"no watermark / no logos"；编辑时"只改 X，其他保留 + 每次迭代重复保留清单"
多参考图：按 index 命名（"Image 1: 产品图… Image 2: 风格参考"），描述交互（"apply Image 2 style to Image 1"）
迭代：从干净 base prompt 开始，小步单点修改 — 不要塞满 prompt
超高分辨率工作流：原生最大 3840×2160；要更大用社区方法"切块 → 分别精修 → PS/工具拼回 → 用混合带融合"
API：v1/images/generations（生成）+ v1/images/edits（编辑）；size/quality/format/n/moderation 可调；mask 需 alpha channel
价格优化：低密度 / 草稿用 quality=low；密集文字与人像用 high；缓存输入 -75% 价
Combo workflow：image-2 + Seedance 2.0（视频）；image-2 + Codex（动画网站/产品）

不适合的场景：

极致写实人像 / 一致性：亚洲人脸一致性偏弱（Nano Banana Pro 更优）
复杂手部细节：要素一多，手部崩概率显著（社区共识）
批量速度优先：单图 ~3s 但复杂可达 1–2 分钟；批量草稿用 gpt-image-1-mini 更便宜更快
风格化编辑插画：CreateVision 评测指出 Seedream 5 更好
流式 / function calling / structured outputs / fine-tuning：API 不支持
input_fidelity 参数：本代不支持（需要的话用 1.5）
极高速率生产：Tier 1 仅 5 IPM；Enterprise/Edu 暂未开放
质量稳定性：偶发"多边形纹路"等降噪问题
最近事件：知识截止 2025-12

Skill description 候选语（用户需求 1）：

用 OpenAI gpt-image-2 在 ChatGPT 或 OpenAI Image API 中生成或编辑图像。最适合：①带大量清晰文字的设计稿（招聘海报/电商详情页/课件/包装/多语言图，CJK/RTL 字符 99% 准确）；②复刻真实世界 UI 与品牌界面（伪造逼真的小红书/B 站/微信/YouTube 截图、官网 mockup）；③信息密度大的 infographic / 时间线 / 图鉴；④参考图驱动的精修（最多 16 张参考，做一致性控制、风格迁移、白底产品图、详情页长图）；⑤视频 storyboard / keyframer（配 Seedance 等视频模型）。不要用于：极致一致性的亚洲人写实人像（Nano Banana Pro 更稳）、批量草稿速度优先（gpt-image-1-mini 更便宜）、风格化插画（Seedream 5 更优）、需要 fine-tune 或 streaming 的场景。

反思总览（debrief）

调研有效率：

5 个 phase 各 1–2 个主源 + 多个补源，互证强：
- 官方 prompting guide 的"约束/迭代/小步修改"和知乎"卡尔的硬核 PK"里 image-2 出图的稳定度对得上
- apiyi 8 项升级和 createvision NOT optimal 清单都被知乎/xhs 实测覆盖
中文社区对"中文渲染 + UI 复刻 + 信息密度"的 use case 强化了 routing keyword
X + B 站的 "+Seedance 2.0" 组合是 surprise — 扩展了 image-2 的定位
没浪费在低质源：xhs 的 4k 赞 "切块再拼" 教程是工程层面的实战金块

没做到的 / 已知缺口：

VentureBeat 多次 429，未取到 multilingual + manga + slides + maps 的具体例子（已通过其他源覆盖部分）
OpenAI 公告页 403，原文措辞少了点
公众号搜索接口返回空，未补到这类长文 + 微信生态视角
API 真实接入示例只在官方 cookbook 看到，没找到独立项目实测的 latency/cost benchmark
没测 Reddit（site:reddit.com 搜索为空，可能是 query 问题；时间已够，未深挖）

对调研方法的反思：

"先锚定再分层"很有效：phase 0 把"image2"= gpt-image-2 锁死后，所有后续 query 都精准了
中文社区的 detail（即文章正文）密度极高（一篇知乎覆盖 30+ 张 case），用 detail 接口拿全文比一个个 fetch 网页要快
trace_id 共享让 search → detail 完整衔接（验证：5 次 detail 均成功 hit cache）
最大 lesson：prompts 库（GitHub awesome-*）的 star 数变化趋势是个 signal，下次研究新模型可以先扫一遍 awesome 仓库的成长曲线

log.md 20 KB Permalink Lịch sử Raw

OpenAI gpt-image-2 调研日志

Phase 0 — 锚定研究对象

Phase 1 — 官方层

Phase 2 — 专业评测层

Phase 3 — 开发者社区层（GitHub / OpenAI community）

Phase 4 — 中文社区层（知乎 / 小红书 / 公众号 / 头条）

Phase 5 — 视频与短文层（X / B 站 / YouTube）

Phase 6 — 整合分析

反思总览（debrief）

log.md 20 KB

Permalink Lịch sử Raw