log.md 20 KB

OpenAI gpt-image-2 调研日志

调研目标:搞清楚 OpenAI gpt-image-2 (ChatGPT Images 2.0)

  1. 最适合什么场景下使用(写成 skill description 让 routing 能挑到它)
  2. 最佳实践 / 具体怎么用
  3. 不适合做什么
  4. 系统化、要 solid,不能只搜两个帖子就下结论

调研时间:2026-04-27(模型于 2026-04-21 发布,距今 6 天) 调研者:砚(with 用户 Howard) 工作目录:/Users/sunlit/Profile/analysis/tool-research/openai-image2/ trace_id:oai-image2-research-001


Phase 0 — 锚定研究对象

决策:先用 WebSearch 确认 "openai image2" 指什么。理由:用户用了非官方简称,新模型且名称约定可能影响后续 query。

渠道与 query

  • WebSearch: OpenAI gpt-image-2 release
  • WebSearch: OpenAI image generation API gpt-image-1 vs gpt-image-2 differences

结果

  • 官名 gpt-image-2 / 产品名 ChatGPT Images 2.0 / snapshot ID gpt-image-2-2026-04-21
  • 发布 2026-04-21;ChatGPT/Codex 04-22 全量;API 5 月初开放
  • 关键定位:OpenAI 把 o-series reasoning 引入图像生成,号称首个 "Agentic image generation"
  • Image Arena leaderboard #1(Text-to-Image +242 分领先)
  • 升级要点:CJK 文字渲染、最多 16 张参考图的 context-aware editing、~3 秒生成(前代 8–18s)、原生 2K/可达 3840×2160、知识截止 2025-12

反思

  • 模型刚发布 6 天,知乎/xhs/GitHub 已有大量内容,社区帖能补充官方文档之外的实操和踩坑
  • 必查:OpenAI 公告 / 模型卡 / cookbook prompting guide
  • "首个 Agentic image gen" 意味着 prompt 写法和扩散模型时代不同——会自带 reasoning,工程量更轻
  • 与 1.5 / 1 / mini 的对比是核心,因为定位/价格分层依赖此

Phase 1 — 官方层

决策:抓官方文档拿到第一手能力清单与 API 用法。这是 SOLID 的基础。

渠道与 URL

  • openai.com/index/introducing-chatgpt-images-2-0/(403 — 官方公告页拒访)
  • developers.openai.com/api/docs/models/gpt-image-2(模型卡)✅
  • developers.openai.com/api/docs/guides/image-generation(API 指南)✅
  • developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide(prompting 最佳实践)✅
  • community.openai.com/t/introducing-gpt-image-2-available-today-...(官方在 Dev Forum 的发布帖 + 用户回复)✅

关键发现

  • 支持的模态:text + image input → image output。Endpoint:v1/images/generations + v1/images/edits(含 inpainting/mask)
  • 不支持:streaming / function calling / structured outputs / fine-tuning / distillation / predicted outputs
  • API 参数
    • size: 1024×1024 / 1536×1024 / 2048×2048 / 3840×2160 / auto(最大边 3840px,比例 ≤ 3:1)
    • quality: low / medium / high / auto(high 用于密集文字与 close-up portrait)
    • format: png / jpeg / webp(JPEG 最快)
    • output_compression: 0–100(仅 jpeg/webp)
    • moderation: auto / low(控制内容过滤强度)
    • n: 一次出多张
    • 不支持 input_fidelity(前代 1.5/1 才有;做编辑时无该参数)
  • 价格:image input $8/M tokens,cached input $2/M,output $30/M;text input $5/M,cached $1.25/M,output $10/M。具体到单张:1024×1024 low ≈ $0.006
  • 速率限制:Tier 1 仅 100k TPM / 5 IPM;Tier 5 才 8M TPM / 250 IPM。Enterprise/Edu 暂未开放
  • Mask 要求:image 与 mask 同格式同尺寸 (<50MB),mask 需 alpha channel
  • 可能需要 organization verification 才能用
  • 复杂 prompt 处理时间:可达 2 分钟(不是号称的 3 秒;3 秒是简单单图)
  • Cookbook prompting guide 的关键模式:
    • prompt 结构:背景/场景 → 主体 → 关键细节 → 约束
    • 文字:放引号或 ALL CAPS;棘手单词逐字母拼写
    • 构图:明确取景/视角/位置
    • 人像:身体范围 + 视线方向
    • 约束(critical):明确排除"no watermark / no logos";编辑用"只改 X,其他保留",每次迭代都重复保留清单
    • 多参考图:按 index 命名 ("Image 1: 产品图… Image 2: 风格参考")
    • 迭代策略:干净 base prompt → 小步单点修改,避免长 prompt
    • 模型档位选择:gpt-image-2 默认;1.5/1 仅做 backward compatibility 与 input_fidelity;mini 用于高吞吐 / 草稿
  • 官方明确承认的弱点:text rendering / consistency across generations / precise element composition 仍是难点(虽有改进)
  • Dev Forum 抱怨:rate limit "highest 250 IPM" 对比其他服务"20x 差距";Codex OAuth token 只支持特定 endpoint

反思

  • 官方文档已经把"最适合的场景"和"参数怎么调"列清晰了,但缺少真实使用对比
  • 5 IPM 的 Tier 1 限制非常严,对生产工作流是关键约束
  • prompting guide 的"先写干净的,再小步迭代"是个 strong opinion,与扩散模型时代"塞满 prompt"的习惯相反——值得作为最佳实践写入

Phase 2 — 专业评测层

决策:拿 TechCrunch / VentureBeat / Wikipedia / 第三方评测的 hands-on 视角,验证官方说法且找出官方不会说的限制。

渠道与 URL

  • TechCrunch 评测 ✅
  • VentureBeat(429 限流,未取到)
  • en.wikipedia.org/wiki/GPT_Image
  • help.apiyi.com/.../gpt-image-2-vs-gpt-image-1-5-upgrade-8-features-en.html ✅(8 项升级清单)
  • createvision.ai/guides/gpt-image-2-complete-guide ✅(含明确 "NOT optimal for" 段落)

关键发现

8 项升级(apiyi.com,需注意是 preview 阶段数据):

  1. 文字渲染:从 1–5 词标题 → ~99% character-level accuracy
  2. 生成速度:8–18s → ~3s(简单图)
  3. 最大分辨率:1536×1024 → 2048×2048(API 实际可达 3840×2160)
  4. 新增 16:9 widescreen(之前只有 1:1 / 4:3 / 3:4)
  5. 真实感:消除"AI 黄滤镜",手部解剖与反射改善(手仍非完美
  6. 世界知识:能正确画 IKEA 店、YouTube UI、Minecraft 场景等
  7. 多语言文本:CJK + RTL(阿拉伯/希伯来)渲染清晰
  8. API 兼容:从两阶段 → 单阶段推理;与 gpt-image-1.5 API 兼容

CreateVision 给的"NOT optimal for"清单(关键!):

  • 纯写实人像 → Nano Banana Pro 更好
  • 速度优先批量生成 → Nano Banana Pro 更快更便宜
  • 风格化编辑插画 → Seedream 5 表现更好

TechCrunch 实测:

  • 餐厅菜单等密集文字"读得通"(DALL-E 3 时代会出 "enchuita" 这种乱码)
  • 多面板漫画类复杂任务仍需"几分钟"(不是号称 3 秒)
  • 知识截止 2025-12 影响最近事件

Wikipedia 串起完整时间线:

  • gpt-image-1(2025-03-25,因供需失衡 GPU "melting",130M 用户、700M 张图首周)
  • gpt-image-1-mini(2025-10-06,便宜 80%)
  • gpt-image-1.5(2025-12-16,4× 加速、20% 降价、但艺术风格倒退、多人脸/非拉丁文仍弱)
  • gpt-image-2(2026-04-21)
  • 历史短板:over-sharpening、warm color bias(v1.5 部分修)、多人脸、中文/阿拉伯/希伯来文(v2 修)、人物姿势/物体重叠

反思

  • "什么时候不要用"清单是 routing-critical:调研需求里第 3 项就是这个
  • "preview 数据"标注提醒——这些 benchmark 可能与 GA 版本有差异
  • VentureBeat 没拿到没关系,已通过其他源覆盖了 multilingual / infographics / slides / maps / manga 用例

Phase 3 — 开发者社区层(GitHub / OpenAI community)

决策:GitHub 看 prompts 库 + 实战项目,能反映创作者怎么用。OpenAI Forum 看技术细节。

渠道与 query

  • content-search github "gpt-image-2" → 返回 20 条
  • content-search github 高 star 详细看 #9(freestylefly 工业级模板库)

关键发现

  • GitHub 出现至少 4 个高 star 的 awesome-prompts 仓库:
    • EvoLinkAI/awesome-gpt-image-2-prompts(5786⭐ — 最大、按用例分类)
    • YouMind-OpenLab/awesome-gpt-image-2(3039⭐ "World's largest, 2000+, 每日更新")
    • Anil-matcha/Awesome-GPT-Image-2-API-Prompts(1714⭐ — 针对 API 用户)
    • freestylefly/awesome-gpt-image-2(917⭐ — "Prompt as Code" 工业级模板库,13 套模板,329 案例逆向工程)
  • 应用层:Jamailar/RedBox(820⭐ 自媒体小红书工作台用 gpt-image-2 出图);432539/gpt2api(1114⭐ 反向网关)
  • Skill 集成:ConardLi/garden-skills 已把 gpt-image-2 集成进 Claude/Skill 工作流
  • 同期项目:stepfun-ai/Step1X-Edit(开源 image edit 模型,对标 gpt-image-2 的 edit)

反思

  • prompts 库的繁荣度提示了一个关键事实:image-2 受益于"prompt 工程化",而不是像扩散模型那样靠 negative prompt + 大量 weight tuning
  • Skill 集成案例可参考——本次调研结果适合产出一个 skill description

Phase 4 — 中文社区层(知乎 / 小红书 / 公众号 / 头条)

决策:中文社区提供大量真实用户的实操、踩坑、对比,是补充官方"什么场景"和"什么不行"最厚的层。

渠道与 query

  • content-search zhihu "gpt-image-2" → 20 条,深入 detail 4 篇
  • content-search xhs "gpt image 2" → 10 条,深入 detail 3 篇
  • content-search gzh "gpt-image-2" → 空(关键词或接口问题,未深究)

关键发现(按 source 浓缩):

知乎"灰度内测"测评(647 赞,作者 卡尔&阿汤)

  • vs Nano Banana 2 的硬核 PK,结论:
    • 文字密集设计(招聘海报、咖啡海报)— image-2 完胜
    • 产品展示电商页 — image-2 像"淘宝详情页",Banana 像"插图"
    • 数学课本截图 — image-2 像"扫描课件",Banana 像"插图"
    • 真实世界还原(喜茶/便利店/家庭厨房) — image-2 细节更对(建设银行围裙、佳琦直播间角落)
    • 黑悟空游戏截图 — image-2 还原原游戏第一人称视角
    • UI 复刻(微信/电商 app/音乐播放器) — image-2 多数胜,少数平
    • 表情包/动漫人物一致性 — 不分上下
    • 真人一致性 — Banana 略胜(image-2 对亚洲人偏弱)
    • 图片翻译稳定性 — image-2 胜(Banana 多次抽卡)

知乎"实测设计行业完蛋了"(386 赞)

  • 总结四大跃迁:文字渲染、世界知识、修改精准度、审美
  • 离谱级世界知识例子:YouTube 首页 / 小红书 Grok 假个人主页(128.6 万粉、AI 来自 xAI 的人设)/ 影视飓风首页 / B 站界面 / Mariah Carey 90 年代生涯长图(信息密度+美感+准确性"三角组合"以前只有专业设计师能做到)
  • 一句 prompt 出"电商详情页"完整长图——"以前要两三天的活,两句话搞定"
  • 引用大头帮主 2015 年知乎答:"设计师不是画图员"——结论:画图员时代结束,设计师/思辨者时代刚开始
  • 明确提及:对亚洲人的一致性还不够好

知乎"提示词写法"(288 赞,饭米粒)

  • 给出 12+ 套高完成度提示词模板(涵盖中式美学/涂鸦速写/宋代工笔/皮克斯 3D/3D 微缩品牌店/手绘旅行地图/儿童绘本/复古旅行海报)
  • 共性结构:风格关键词 + 构图描述 + 主题占位符 + 文字落款 + 排除清单 + 比例
  • 模板用 {城市名} / {人物组合} / {品牌名} 这类参数化占位符——直接 prompt-as-code 模式

小红书"高清化展板"(3907 赞)

  • 关键工作流:单图分辨率不够时,"切块 → 分别精修 → PS 拼回 → 用混合带融合 → 手动微调"
  • 核心 prompt:"这是竞赛展板,请分别生成高清版本,文字清晰一点,图片清晰一点,风格不变,尺寸不变"
  • 这是社区对单图 max 分辨率 (~3840×2160) 限制的最佳实战 workaround

小红书"奇怪纹路"(205 赞)

  • 有用户反映多边形纹路("降噪不彻底"),并非个例——质量偶发问题

小红书"山西封神"(795 赞)+ "电商详情页教学"(395 赞)+ "设计展板"(1575 赞)+ "13MB 航拍图"(1438 赞)

  • 反复出现的爆款使用场景:地区/城市文旅宣传图、电商详情页、建筑/景观/规划展板、超大幅面航拍图

反思

  • 中文社区的"四大跃迁"框架(文字/世界知识/修改/审美)和官方"text rendering / world knowledge / instruction following / visual reasoning"完全对得上,互证了官方说法
  • "切块再拼"的 workaround 提示了:高分辨率单图仍是 hard limit
  • 中文社区的强场景:信息密度大的设计稿(招聘/电商/课本/展板)+ 中文文字 + 真实世界 UI 复刻 这是与 Nano Banana Pro 拉开差距的位置

Phase 5 — 视频与短文层(X / B 站 / YouTube)

决策:X 看一手国际反应与 combo 工作流;B 站补中文视频实测视角。

渠道与 query

  • content-search bili "GPT-image-2" → 20 条(list level)
  • content-search x "gpt-image-2" → 20 条(含 like/comment 数)

关键发现

X 平台高赞内容(multi-tweet, hands-on)

  • @0xInk_ 11891 赞:"Just created my own AAA game with GPT image 2 and Seedance 2"
  • @rileybrown 8179 赞:"GPT-Image-2... wtf... how"(震惊体)
  • @arena 5718 赞:Image Arena #1 announcement
  • @dreamwieber 4230 赞:Codex+GPT 5.5 一发命中(不是 image,但显示用户兴奋度)
  • @D_studioproject 3226 赞:GPT Image 2 + Seedance 2.0 anime pipeline
  • @HAL2400AI @oggii_0 @Ciri_ai @iX00AI反复出现的 GPT Image 2 + Seedance 2.0 工作流——用 image-2 出 16-frame 动作 sheet → Seedance 2.0 生成视频
  • @OpenAIDevs 引用 OpenArt:"gpt-image-2 bridges the gap between text and visual planning"——visual planning 是核心定位语
  • @higgsfield 1306 赞:image-2.0 接入 Higgsfield,"perfect text rendering and ChatGPT-level reasoning"
  • @Angaisb_ 2179 赞:GPT Image 2 + Codex 强组合(动画网站)

B 站视频核心信号(list 标题反映创作者偏好):

  • "32 分类 vs nano-banana 2"——大量 systematic 对比
  • "comfyui 调用"——本地工作流集成
  • "GPT Image 2 + Seedance 2.0 王炸组合"——视频管线
  • "UI/作品集/品牌设计 一套搞定"——设计师向
  • "PPT、vibe coding、短剧、广告" 多元玩法
  • "国内免费、不翻墙使用"——访问/合规需求显著(暗示中国市场绕路成本)

反思

  • X 上的 dominant 工作流是 image-2 → Seedance 视频,已成事实——这扩展了"什么时候用 image-2"的定义:不仅是出最终图,还是视频的关键 frame keyframer
  • "visual planning" 是非常好的 routing 关键词
  • 中国市场访问成本高的事实,对实际部署有实操影响

Phase 6 — 整合分析

核心定位(一句话): gpt-image-2 是 OpenAI 2026-04-21 发布的 SOTA 图像生成 + 编辑模型,最大区分点是生成前会做 reasoning + visual planning,因此在文字密集设计、真实世界 UI/品牌复刻、多语言文本(含 CJK/RTL)、信息图、和参考图编辑(最多 16 张)这五类高约束任务上,相比扩散模型一代有质的跃迁。

最适合的场景(routing keywords)

  1. 需要渲染清晰文字的图(海报/招聘启事/电商详情页/试卷/课件/数据长图/包装)
  2. 需要复刻真实世界 UI/界面(YouTube/小红书/B 站/微信/淘宝/直播间假截图、品牌官网 mockup)
  3. 多语言文本图(中日韩 + 阿拉伯/希伯来)
  4. 信息密度大 + 需要美感的信息图、infographic、时间线、图鉴
  5. 基于参考图的精修(产品场景图、风格化复刻、白底产品主图、详情页长图)— 最多 16 reference
  6. 多面板漫画 / storyboard / keyframer for video(特别是配 Seedance 2.0 这类视频模型)
  7. agent / 自动化场景下的"一次直出"图(reasoning 让 prompt 工程量更轻)

最佳实践

  • Prompt 结构:背景/场景 → 主体 → 关键细节 → 约束
  • 文字:引号或 ALL CAPS 包住要写的字;棘手词逐字母拼写;medium/high quality
  • 构图:明确取景(close-up/wide)、视角、元素位置
  • 人像:明确身体范围、视线方向、身份保留 lock
  • 约束(最关键):明确排除"no watermark / no logos";编辑时"只改 X,其他保留 + 每次迭代重复保留清单"
  • 多参考图:按 index 命名("Image 1: 产品图… Image 2: 风格参考"),描述交互("apply Image 2 style to Image 1")
  • 迭代:从干净 base prompt 开始,小步单点修改 — 不要塞满 prompt
  • 超高分辨率工作流:原生最大 3840×2160;要更大用社区方法"切块 → 分别精修 → PS/工具拼回 → 用混合带融合"
  • APIv1/images/generations(生成)+ v1/images/edits(编辑);size/quality/format/n/moderation 可调;mask 需 alpha channel
  • 价格优化:低密度 / 草稿用 quality=low;密集文字与人像用 high;缓存输入 -75% 价
  • Combo workflow:image-2 + Seedance 2.0(视频);image-2 + Codex(动画网站/产品)

不适合的场景

  • 极致写实人像 / 一致性:亚洲人脸一致性偏弱(Nano Banana Pro 更优)
  • 复杂手部细节:要素一多,手部崩概率显著(社区共识)
  • 批量速度优先:单图 ~3s 但复杂可达 1–2 分钟;批量草稿用 gpt-image-1-mini 更便宜更快
  • 风格化编辑插画:CreateVision 评测指出 Seedream 5 更好
  • 流式 / function calling / structured outputs / fine-tuning:API 不支持
  • input_fidelity 参数:本代不支持(需要的话用 1.5)
  • 极高速率生产:Tier 1 仅 5 IPM;Enterprise/Edu 暂未开放
  • 质量稳定性:偶发"多边形纹路"等降噪问题
  • 最近事件:知识截止 2025-12

Skill description 候选语(用户需求 1)

用 OpenAI gpt-image-2 在 ChatGPT 或 OpenAI Image API 中生成或编辑图像。最适合:①带大量清晰文字的设计稿(招聘海报/电商详情页/课件/包装/多语言图,CJK/RTL 字符 99% 准确);②复刻真实世界 UI 与品牌界面(伪造逼真的小红书/B 站/微信/YouTube 截图、官网 mockup);③信息密度大的 infographic / 时间线 / 图鉴;④参考图驱动的精修(最多 16 张参考,做一致性控制、风格迁移、白底产品图、详情页长图);⑤视频 storyboard / keyframer(配 Seedance 等视频模型)。不要用于:极致一致性的亚洲人写实人像(Nano Banana Pro 更稳)、批量草稿速度优先(gpt-image-1-mini 更便宜)、风格化插画(Seedream 5 更优)、需要 fine-tune 或 streaming 的场景。


反思总览(debrief)

调研有效率

  • 5 个 phase 各 1–2 个主源 + 多个补源,互证强:
    • 官方 prompting guide 的"约束/迭代/小步修改"和知乎"卡尔的硬核 PK"里 image-2 出图的稳定度对得上
    • apiyi 8 项升级和 createvision NOT optimal 清单都被知乎/xhs 实测覆盖
  • 中文社区对"中文渲染 + UI 复刻 + 信息密度"的 use case 强化了 routing keyword
  • X + B 站的 "+Seedance 2.0" 组合是 surprise — 扩展了 image-2 的定位
  • 没浪费在低质源:xhs 的 4k 赞 "切块再拼" 教程是工程层面的实战金块

没做到的 / 已知缺口

  • VentureBeat 多次 429,未取到 multilingual + manga + slides + maps 的具体例子(已通过其他源覆盖部分)
  • OpenAI 公告页 403,原文措辞少了点
  • 公众号搜索接口返回空,未补到这类长文 + 微信生态视角
  • API 真实接入示例只在官方 cookbook 看到,没找到独立项目实测的 latency/cost benchmark
  • 没测 Reddit(site:reddit.com 搜索为空,可能是 query 问题;时间已够,未深挖)

对调研方法的反思

  • "先锚定再分层"很有效:phase 0 把"image2"= gpt-image-2 锁死后,所有后续 query 都精准了
  • 中文社区的 detail(即文章正文)密度极高(一篇知乎覆盖 30+ 张 case),用 detail 接口拿全文比一个个 fetch 网页要快
  • trace_id 共享让 search → detail 完整衔接(验证:5 次 detail 均成功 hit cache)
  • 最大 lesson:prompts 库(GitHub awesome-*)的 star 数变化趋势是个 signal,下次研究新模型可以先扫一遍 awesome 仓库的成长曲线