# OpenAI gpt-image-2 调研日志

调研目标：搞清楚 OpenAI gpt-image-2 (ChatGPT Images 2.0)
1. 最适合什么场景下使用（写成 skill description 让 routing 能挑到它）
2. 最佳实践 / 具体怎么用
3. 不适合做什么
4. 系统化、要 solid，不能只搜两个帖子就下结论

调研时间：2026-04-27（模型于 2026-04-21 发布，距今 6 天）
调研者：砚（with 用户 Howard）
工作目录：`/Users/sunlit/Profile/analysis/tool-research/openai-image2/`
trace_id：`oai-image2-research-001`

---

## Phase 0 — 锚定研究对象

**决策**：先用 WebSearch 确认 "openai image2" 指什么。理由：用户用了非官方简称，新模型且名称约定可能影响后续 query。

**渠道与 query**：
- WebSearch: `OpenAI gpt-image-2 release`
- WebSearch: `OpenAI image generation API gpt-image-1 vs gpt-image-2 differences`

**结果**：
- 官名 **gpt-image-2** / 产品名 **ChatGPT Images 2.0** / snapshot ID `gpt-image-2-2026-04-21`
- 发布 2026-04-21；ChatGPT/Codex 04-22 全量；API 5 月初开放
- 关键定位：OpenAI 把 o-series reasoning 引入图像生成，号称首个 "Agentic image generation"
- Image Arena leaderboard #1（Text-to-Image +242 分领先）
- 升级要点：CJK 文字渲染、最多 16 张参考图的 context-aware editing、~3 秒生成（前代 8–18s）、原生 2K/可达 3840×2160、知识截止 2025-12

**反思**：
- 模型刚发布 6 天，知乎/xhs/GitHub 已有大量内容，社区帖能补充官方文档之外的实操和踩坑
- 必查：OpenAI 公告 / 模型卡 / cookbook prompting guide
- "首个 Agentic image gen" 意味着 prompt 写法和扩散模型时代不同——会自带 reasoning，工程量更轻
- 与 1.5 / 1 / mini 的对比是核心，因为定位/价格分层依赖此

---

## Phase 1 — 官方层

**决策**：抓官方文档拿到第一手能力清单与 API 用法。这是 SOLID 的基础。

**渠道与 URL**：
- `openai.com/index/introducing-chatgpt-images-2-0/`（403 — 官方公告页拒访）
- `developers.openai.com/api/docs/models/gpt-image-2`（模型卡）✅
- `developers.openai.com/api/docs/guides/image-generation`（API 指南）✅
- `developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide`（prompting 最佳实践）✅
- `community.openai.com/t/introducing-gpt-image-2-available-today-...`（官方在 Dev Forum 的发布帖 + 用户回复）✅

**关键发现**：
- **支持的模态**：text + image input → image output。Endpoint：`v1/images/generations` + `v1/images/edits`（含 inpainting/mask）
- **不支持**：streaming / function calling / structured outputs / fine-tuning / distillation / predicted outputs
- **API 参数**：
  - `size`: 1024×1024 / 1536×1024 / 2048×2048 / 3840×2160 / `auto`（最大边 3840px，比例 ≤ 3:1）
  - `quality`: low / medium / high / auto（high 用于密集文字与 close-up portrait）
  - `format`: png / jpeg / webp（JPEG 最快）
  - `output_compression`: 0–100（仅 jpeg/webp）
  - `moderation`: auto / low（控制内容过滤强度）
  - `n`: 一次出多张
  - **不支持** `input_fidelity`（前代 1.5/1 才有；做编辑时无该参数）
- **价格**：image input $8/M tokens，cached input $2/M，output $30/M；text input $5/M，cached $1.25/M，output $10/M。具体到单张：1024×1024 low ≈ $0.006
- **速率限制**：Tier 1 仅 100k TPM / **5 IPM**；Tier 5 才 8M TPM / 250 IPM。Enterprise/Edu 暂未开放
- **Mask 要求**：image 与 mask 同格式同尺寸 (<50MB)，mask 需 alpha channel
- **可能需要 organization verification** 才能用
- **复杂 prompt 处理时间**：可达 2 分钟（不是号称的 3 秒；3 秒是简单单图）
- **Cookbook prompting guide** 的关键模式：
  - prompt 结构：背景/场景 → 主体 → 关键细节 → 约束
  - **文字**：放引号或 ALL CAPS；棘手单词逐字母拼写
  - **构图**：明确取景/视角/位置
  - **人像**：身体范围 + 视线方向
  - **约束（critical）**：明确排除"no watermark / no logos"；编辑用"只改 X，其他保留"，每次迭代都重复保留清单
  - **多参考图**：按 index 命名 ("Image 1: 产品图… Image 2: 风格参考")
  - **迭代策略**：干净 base prompt → 小步单点修改，避免长 prompt
  - **模型档位选择**：gpt-image-2 默认；1.5/1 仅做 backward compatibility 与 input_fidelity；mini 用于高吞吐 / 草稿
- 官方明确承认的弱点：**text rendering / consistency across generations / precise element composition** 仍是难点（虽有改进）
- Dev Forum 抱怨：rate limit "highest 250 IPM" 对比其他服务"20x 差距"；Codex OAuth token 只支持特定 endpoint

**反思**：
- 官方文档已经把"最适合的场景"和"参数怎么调"列清晰了，但缺少真实使用对比
- 5 IPM 的 Tier 1 限制非常严，对生产工作流是关键约束
- prompting guide 的"先写干净的，再小步迭代"是个 strong opinion，与扩散模型时代"塞满 prompt"的习惯相反——值得作为最佳实践写入

---

## Phase 2 — 专业评测层

**决策**：拿 TechCrunch / VentureBeat / Wikipedia / 第三方评测的 hands-on 视角，验证官方说法且找出官方不会说的限制。

**渠道与 URL**：
- TechCrunch 评测 ✅
- VentureBeat（429 限流，未取到）
- `en.wikipedia.org/wiki/GPT_Image` ✅
- `help.apiyi.com/.../gpt-image-2-vs-gpt-image-1-5-upgrade-8-features-en.html` ✅（8 项升级清单）
- `createvision.ai/guides/gpt-image-2-complete-guide` ✅（含明确 "NOT optimal for" 段落）

**关键发现**：

8 项升级（apiyi.com，需注意是 preview 阶段数据）：
1. **文字渲染**：从 1–5 词标题 → ~99% character-level accuracy
2. **生成速度**：8–18s → ~3s（简单图）
3. **最大分辨率**：1536×1024 → 2048×2048（API 实际可达 3840×2160）
4. **新增 16:9 widescreen**（之前只有 1:1 / 4:3 / 3:4）
5. **真实感**：消除"AI 黄滤镜"，手部解剖与反射改善（**手仍非完美**）
6. **世界知识**：能正确画 IKEA 店、YouTube UI、Minecraft 场景等
7. **多语言文本**：CJK + RTL（阿拉伯/希伯来）渲染清晰
8. **API 兼容**：从两阶段 → 单阶段推理；与 gpt-image-1.5 API 兼容

CreateVision 给的"**NOT optimal for**"清单（关键！）：
- 纯写实人像 → Nano Banana Pro 更好
- 速度优先批量生成 → Nano Banana Pro 更快更便宜
- 风格化编辑插画 → Seedream 5 表现更好

TechCrunch 实测：
- 餐厅菜单等密集文字"读得通"（DALL-E 3 时代会出 "enchuita" 这种乱码）
- 多面板漫画类复杂任务**仍需"几分钟"**（不是号称 3 秒）
- 知识截止 2025-12 影响最近事件

Wikipedia 串起完整时间线：
- gpt-image-1（2025-03-25，因供需失衡 GPU "melting"，130M 用户、700M 张图首周）
- gpt-image-1-mini（2025-10-06，便宜 80%）
- gpt-image-1.5（2025-12-16，4× 加速、20% 降价、但艺术风格倒退、多人脸/非拉丁文仍弱）
- gpt-image-2（2026-04-21）
- 历史短板：over-sharpening、warm color bias（v1.5 部分修）、多人脸、中文/阿拉伯/希伯来文（v2 修）、人物姿势/物体重叠

**反思**：
- "什么时候不要用"清单是 routing-critical：调研需求里第 3 项就是这个
- "preview 数据"标注提醒——这些 benchmark 可能与 GA 版本有差异
- VentureBeat 没拿到没关系，已通过其他源覆盖了 multilingual / infographics / slides / maps / manga 用例

---

## Phase 3 — 开发者社区层（GitHub / OpenAI community）

**决策**：GitHub 看 prompts 库 + 实战项目，能反映创作者怎么用。OpenAI Forum 看技术细节。

**渠道与 query**：
- content-search github "gpt-image-2" → 返回 20 条
- content-search github 高 star 详细看 #9（freestylefly 工业级模板库）

**关键发现**：
- GitHub 出现至少 4 个高 star 的 awesome-prompts 仓库：
  - `EvoLinkAI/awesome-gpt-image-2-prompts`（5786⭐ — 最大、按用例分类）
  - `YouMind-OpenLab/awesome-gpt-image-2`（3039⭐ "World's largest, 2000+, 每日更新"）
  - `Anil-matcha/Awesome-GPT-Image-2-API-Prompts`（1714⭐ — 针对 API 用户）
  - `freestylefly/awesome-gpt-image-2`（917⭐ — "Prompt as Code" 工业级模板库，13 套模板，329 案例逆向工程）
- 应用层：`Jamailar/RedBox`（820⭐ 自媒体小红书工作台用 gpt-image-2 出图）；`432539/gpt2api`（1114⭐ 反向网关）
- Skill 集成：`ConardLi/garden-skills` 已把 gpt-image-2 集成进 Claude/Skill 工作流
- 同期项目：`stepfun-ai/Step1X-Edit`（开源 image edit 模型，对标 gpt-image-2 的 edit）

**反思**：
- prompts 库的繁荣度提示了一个关键事实：image-2 受益于"prompt 工程化"，而不是像扩散模型那样靠 negative prompt + 大量 weight tuning
- Skill 集成案例可参考——本次调研结果适合产出一个 skill description

---

## Phase 4 — 中文社区层（知乎 / 小红书 / 公众号 / 头条）

**决策**：中文社区提供大量真实用户的实操、踩坑、对比，是补充官方"什么场景"和"什么不行"最厚的层。

**渠道与 query**：
- content-search zhihu "gpt-image-2" → 20 条，深入 detail 4 篇
- content-search xhs "gpt image 2" → 10 条，深入 detail 3 篇
- content-search gzh "gpt-image-2" → 空（关键词或接口问题，未深究）

**关键发现**（按 source 浓缩）：

**知乎"灰度内测"测评（647 赞，作者 卡尔&阿汤）**：
- vs Nano Banana 2 的硬核 PK，结论：
  - 文字密集设计（招聘海报、咖啡海报）— image-2 完胜
  - 产品展示电商页 — image-2 像"淘宝详情页"，Banana 像"插图"
  - 数学课本截图 — image-2 像"扫描课件"，Banana 像"插图"
  - 真实世界还原（喜茶/便利店/家庭厨房） — image-2 细节更对（建设银行围裙、佳琦直播间角落）
  - 黑悟空游戏截图 — image-2 还原原游戏第一人称视角
  - UI 复刻（微信/电商 app/音乐播放器） — image-2 多数胜，少数平
  - 表情包/动漫人物一致性 — 不分上下
  - 真人一致性 — Banana 略胜（image-2 对亚洲人偏弱）
  - 图片翻译稳定性 — image-2 胜（Banana 多次抽卡）

**知乎"实测设计行业完蛋了"（386 赞）**：
- 总结四大跃迁：**文字渲染、世界知识、修改精准度、审美**
- 离谱级世界知识例子：YouTube 首页 / 小红书 Grok 假个人主页（128.6 万粉、AI 来自 xAI 的人设）/ 影视飓风首页 / B 站界面 / Mariah Carey 90 年代生涯长图（信息密度+美感+准确性"三角组合"以前只有专业设计师能做到）
- 一句 prompt 出"电商详情页"完整长图——"以前要两三天的活，两句话搞定"
- 引用大头帮主 2015 年知乎答："设计师不是画图员"——结论：画图员时代结束，设计师/思辨者时代刚开始
- 明确提及：**对亚洲人的一致性还不够好**

**知乎"提示词写法"（288 赞，饭米粒）**：
- 给出 12+ 套高完成度提示词模板（涵盖中式美学/涂鸦速写/宋代工笔/皮克斯 3D/3D 微缩品牌店/手绘旅行地图/儿童绘本/复古旅行海报）
- 共性结构：风格关键词 + 构图描述 + 主题占位符 + 文字落款 + 排除清单 + 比例
- 模板用 `{城市名} / {人物组合} / {品牌名}` 这类参数化占位符——直接 prompt-as-code 模式

**小红书"高清化展板"（3907 赞）**：
- **关键工作流**：单图分辨率不够时，"切块 → 分别精修 → PS 拼回 → 用混合带融合 → 手动微调"
- 核心 prompt："这是竞赛展板，请分别生成高清版本，文字清晰一点，图片清晰一点，**风格不变，尺寸不变**"
- 这是社区对单图 max 分辨率 (~3840×2160) 限制的最佳实战 workaround

**小红书"奇怪纹路"（205 赞）**：
- 有用户反映多边形纹路（"降噪不彻底"），并非个例——质量偶发问题

**小红书"山西封神"（795 赞）+ "电商详情页教学"（395 赞）+ "设计展板"（1575 赞）+ "13MB 航拍图"（1438 赞）**：
- 反复出现的爆款使用场景：地区/城市文旅宣传图、电商详情页、建筑/景观/规划展板、超大幅面航拍图

**反思**：
- 中文社区的"四大跃迁"框架（文字/世界知识/修改/审美）和官方"text rendering / world knowledge / instruction following / visual reasoning"完全对得上，互证了官方说法
- "切块再拼"的 workaround 提示了：高分辨率单图仍是 hard limit
- 中文社区的强场景：**信息密度大的设计稿（招聘/电商/课本/展板）+ 中文文字 + 真实世界 UI 复刻** 这是与 Nano Banana Pro 拉开差距的位置

---

## Phase 5 — 视频与短文层（X / B 站 / YouTube）

**决策**：X 看一手国际反应与 combo 工作流；B 站补中文视频实测视角。

**渠道与 query**：
- content-search bili "GPT-image-2" → 20 条（list level）
- content-search x "gpt-image-2" → 20 条（含 like/comment 数）

**关键发现**：

**X 平台高赞内容（multi-tweet, hands-on）**：
- `@0xInk_` 11891 赞："Just created my own AAA game with GPT image 2 and Seedance 2"
- `@rileybrown` 8179 赞："GPT-Image-2... wtf... how"（震惊体）
- `@arena` 5718 赞：Image Arena #1 announcement
- `@dreamwieber` 4230 赞：Codex+GPT 5.5 一发命中（不是 image，但显示用户兴奋度）
- `@D_studioproject` 3226 赞：GPT Image 2 + Seedance 2.0 anime pipeline
- `@HAL2400AI` `@oggii_0` `@Ciri_ai` `@iX00AI`：**反复出现的 GPT Image 2 + Seedance 2.0 工作流**——用 image-2 出 16-frame 动作 sheet → Seedance 2.0 生成视频
- `@OpenAIDevs` 引用 OpenArt：**"gpt-image-2 bridges the gap between text and visual planning"**——visual planning 是核心定位语
- `@higgsfield` 1306 赞：image-2.0 接入 Higgsfield，"perfect text rendering and ChatGPT-level reasoning"
- `@Angaisb_` 2179 赞：GPT Image 2 + Codex 强组合（动画网站）

**B 站视频核心信号**（list 标题反映创作者偏好）：
- "32 分类 vs nano-banana 2"——大量 systematic 对比
- "comfyui 调用"——本地工作流集成
- "GPT Image 2 + Seedance 2.0 王炸组合"——视频管线
- "UI/作品集/品牌设计 一套搞定"——设计师向
- "PPT、vibe coding、短剧、广告" 多元玩法
- "国内免费、不翻墙使用"——访问/合规需求显著（暗示中国市场绕路成本）

**反思**：
- X 上的 dominant 工作流是 image-2 → Seedance 视频，已成事实——这扩展了"什么时候用 image-2"的定义：不仅是出最终图，还是视频的关键 frame keyframer
- "visual planning" 是非常好的 routing 关键词
- 中国市场访问成本高的事实，对实际部署有实操影响

---

## Phase 6 — 整合分析

**核心定位（一句话）**：
gpt-image-2 是 OpenAI 2026-04-21 发布的 SOTA 图像生成 + 编辑模型，最大区分点是**生成前会做 reasoning + visual planning**，因此在文字密集设计、真实世界 UI/品牌复刻、多语言文本（含 CJK/RTL）、信息图、和参考图编辑（最多 16 张）这五类高约束任务上，相比扩散模型一代有质的跃迁。

**最适合的场景（routing keywords）**：
1. 需要**渲染清晰文字**的图（海报/招聘启事/电商详情页/试卷/课件/数据长图/包装）
2. 需要**复刻真实世界 UI/界面**（YouTube/小红书/B 站/微信/淘宝/直播间假截图、品牌官网 mockup）
3. **多语言文本**图（中日韩 + 阿拉伯/希伯来）
4. **信息密度大** + 需要美感的**信息图、infographic、时间线、图鉴**
5. **基于参考图的精修**（产品场景图、风格化复刻、白底产品主图、详情页长图）— 最多 16 reference
6. **多面板漫画 / storyboard / keyframer for video**（特别是配 Seedance 2.0 这类视频模型）
7. **agent / 自动化场景下的"一次直出"图**（reasoning 让 prompt 工程量更轻）

**最佳实践**：
- **Prompt 结构**：背景/场景 → 主体 → 关键细节 → 约束
- **文字**：引号或 ALL CAPS 包住要写的字；棘手词逐字母拼写；medium/high quality 
- **构图**：明确取景（close-up/wide）、视角、元素位置
- **人像**：明确身体范围、视线方向、身份保留 lock
- **约束（最关键）**：明确排除"no watermark / no logos"；编辑时"只改 X，其他保留 + 每次迭代重复保留清单"
- **多参考图**：按 index 命名（"Image 1: 产品图… Image 2: 风格参考"），描述交互（"apply Image 2 style to Image 1"）
- **迭代**：从干净 base prompt 开始，小步单点修改 — **不要塞满 prompt**
- **超高分辨率工作流**：原生最大 3840×2160；要更大用社区方法"切块 → 分别精修 → PS/工具拼回 → 用混合带融合"
- **API**：`v1/images/generations`（生成）+ `v1/images/edits`（编辑）；size/quality/format/n/moderation 可调；mask 需 alpha channel
- **价格优化**：低密度 / 草稿用 quality=low；密集文字与人像用 high；缓存输入 -75% 价
- **Combo workflow**：image-2 + Seedance 2.0（视频）；image-2 + Codex（动画网站/产品）

**不适合的场景**：
- **极致写实人像 / 一致性**：亚洲人脸一致性偏弱（Nano Banana Pro 更优）
- **复杂手部细节**：要素一多，手部崩概率显著（社区共识）
- **批量速度优先**：单图 ~3s 但复杂可达 1–2 分钟；批量草稿用 gpt-image-1-mini 更便宜更快
- **风格化编辑插画**：CreateVision 评测指出 Seedream 5 更好
- **流式 / function calling / structured outputs / fine-tuning**：API 不支持
- **`input_fidelity` 参数**：本代不支持（需要的话用 1.5）
- **极高速率生产**：Tier 1 仅 5 IPM；Enterprise/Edu 暂未开放
- **质量稳定性**：偶发"多边形纹路"等降噪问题
- **最近事件**：知识截止 2025-12

**Skill description 候选语（用户需求 1）**：

> 用 OpenAI gpt-image-2 在 ChatGPT 或 OpenAI Image API 中**生成或编辑**图像。最适合：①带大量清晰文字的设计稿（招聘海报/电商详情页/课件/包装/多语言图，CJK/RTL 字符 99% 准确）；②复刻真实世界 UI 与品牌界面（伪造逼真的小红书/B 站/微信/YouTube 截图、官网 mockup）；③信息密度大的 infographic / 时间线 / 图鉴；④参考图驱动的精修（最多 16 张参考，做一致性控制、风格迁移、白底产品图、详情页长图）；⑤视频 storyboard / keyframer（配 Seedance 等视频模型）。**不要**用于：极致一致性的亚洲人写实人像（Nano Banana Pro 更稳）、批量草稿速度优先（gpt-image-1-mini 更便宜）、风格化插画（Seedream 5 更优）、需要 fine-tune 或 streaming 的场景。

---

## 反思总览（debrief）

**调研有效率**：
- 5 个 phase 各 1–2 个主源 + 多个补源，互证强：
  - 官方 prompting guide 的"约束/迭代/小步修改"和知乎"卡尔的硬核 PK"里 image-2 出图的稳定度对得上
  - apiyi 8 项升级和 createvision NOT optimal 清单都被知乎/xhs 实测覆盖
- 中文社区对"中文渲染 + UI 复刻 + 信息密度"的 use case 强化了 routing keyword
- X + B 站的 "+Seedance 2.0" 组合是 surprise — 扩展了 image-2 的定位
- 没浪费在低质源：xhs 的 4k 赞 "切块再拼" 教程是工程层面的实战金块

**没做到的 / 已知缺口**：
- VentureBeat 多次 429，未取到 multilingual + manga + slides + maps 的具体例子（已通过其他源覆盖部分）
- OpenAI 公告页 403，原文措辞少了点
- 公众号搜索接口返回空，未补到这类长文 + 微信生态视角
- API 真实接入示例只在官方 cookbook 看到，没找到独立项目实测的 latency/cost benchmark
- 没测 Reddit（site:reddit.com 搜索为空，可能是 query 问题；时间已够，未深挖）

**对调研方法的反思**：
- "**先锚定再分层**"很有效：phase 0 把"image2"= gpt-image-2 锁死后，所有后续 query 都精准了
- 中文社区的 detail（即文章正文）密度极高（一篇知乎覆盖 30+ 张 case），用 detail 接口拿全文比一个个 fetch 网页要快
- trace_id 共享让 search → detail 完整衔接（验证：5 次 detail 均成功 hit cache）
- 最大 lesson：prompts 库（GitHub awesome-*）的 star 数变化趋势是个 signal，下次研究新模型可以先扫一遍 awesome 仓库的成长曲线