OpenAI 发布 GPT Image 1.5：全面升级

显示全部楼层

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">刚刚，OpenAI 今天发布了新的图像模型：GPT Image 1.5
核心变化一句话：ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(198, 110, 73);margin: 24px 0px 8px;">精准编辑，不崩全图

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">让它改哪，他就改哪，其他地方不乱动

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">同时，对比上一代模型GPT Image 1.0：

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
• 更强的指令遵循
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
• 更好的细节保持
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
• 速度比上一代快4倍
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
• API 价格降了 20% 以上

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">今天开始，向所有 ChatGPT 用户推出。

另外经实测，这个模型在中文处理上比 NanoBanana 还是差了不少，本文也会详细说说

精准编辑

这是本次升级的核心
当你上传一张图片要求修改时，模型只改你要改的地方，光线、构图、人物外貌这些元素在多轮编辑中都能保持一致

看官方给的例子，这个模型擅长各种编辑操作：添加、删除、合成、混合、移植

三张输入图：两个男人、一只狗

第一步
把这两个男人和这只狗合成一张 2000 年代胶片相机风格的照片，他们在一个小孩的生日派对上，看起来很无聊

第二步
在背景加一群疯狂的小孩，到处扔东西、尖叫

前景的两个人和狗，基本没变

第三步
把左边的男人改成手绘复古动漫风格，狗改成毛绒玩具风格，右边的男人和背景保持不变

同一张图里，三种风格共存
左边是动漫，中间是毛绒玩具，右边是真人
这在之前几乎做不到

第四步
给他们都穿上 OpenAI 卫衣（参考另一张图的样式）

第五步
把两个男人去掉，只留下狗，放进一个 OpenAI 直播画面里

五轮编辑下来，狗的形象始终保持一致

实测

我先上传了山姆奥特曼的照片

创意转换

在 ChatGPT 里使用这个模型，可以看到新增了预设风格和创意模板，不用写提示词也能玩：电影海报、80 年代健身教练、魅力娃娃、装饰品、时尚广告、换装角色、油画、饮料广告....

看这个电影海报的例子

提示词：用这两个男人的照片，做一张老派好莱坞黄金时代风格的电影海报，电影叫「codex」。把他们的服装改成那个年代的风格。演员名字改成 Wojciech Zaremba（左）和 Greg Brockman（右），导演 Sam Altman，制片人 Fidji Simo，Feel the AGI Pictures 出品

人物面部特征保留了，服装、排版、文字都按要求生成

实测

指令遵循

相比旧版，新模型对指令的遵循更加可靠

看这个测试：画一个 6x6 的网格，每个格子里放不同的物品

提示词
做一个 6 列 x 6 行的网格：
• 第 1 行：希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙
• 第 2 行：螳螂、名贵手表、浴缸、太阳镜、彩色蝴蝶、信封
• 第 3 行：邮票、相框、冒热气的饺子、「miracle」这个词、滑雪板、字母 Z
• 第 4 行：马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔
• 第 5 行：蓝牙图标、数字 13、绿色爱心、魔方、加拿大鹅、士兵头盔
• 第 6 行：白色狗、救生衣、绳结、键盘、纸巾盒、数字 14

新版结果：