返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

OpenAI 发布 GPT Image 1.5:全面升级

[复制链接]
链载Ai 显示全部楼层 发表于 前天 17:13 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">刚刚,OpenAI 今天发布了新的图像模型:GPT Image 1.5
核心变化一句话:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(198, 110, 73);margin: 24px 0px 8px;">精准编辑,不崩全图


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">让它改哪,他就改哪,其他地方不乱动

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">同时,对比上一代模型GPT Image 1.0

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;color: rgb(63, 63, 63);opacity: 0.8;" class="list-paddingleft-1">
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • 更强的指令遵循
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • 更好的细节保持
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • 速度比上一代快4倍
  • ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 15px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    • API 价格降了 20% 以上

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);word-break: break-all;opacity: 0.9;">今天开始,向所有 ChatGPT 用户推出。

另外经实测,这个模型在中文处理上比 NanoBanana 还是差了不少,本文也会详细说说

精准编辑

这是本次升级的核心
当你上传一张图片要求修改时,模型只改你要改的地方,光线、构图、人物外貌这些元素在多轮编辑中都能保持一致

看官方给的例子,这个模型擅长各种编辑操作:添加删除合成混合移植

三张输入图:两个男人、一只狗

输入图1
输入图2
输入图3

第一步
把这两个男人和这只狗合成一张 2000 年代胶片相机风格的照片,他们在一个小孩的生日派对上,看起来很无聊

合成结果

第二步
在背景加一群疯狂的小孩,到处扔东西、尖叫

添加背景小孩

前景的两个人和狗,基本没变

第三步
把左边的男人改成手绘复古动漫风格,狗改成毛绒玩具风格,右边的男人和背景保持不变

混合风格

同一张图里,三种风格共存
左边是动漫,中间是毛绒玩具,右边是真人
这在之前几乎做不到

第四步
给他们都穿上 OpenAI 卫衣(参考另一张图的样式)

参考图
换装结果

第五步
把两个男人去掉,只留下狗,放进一个 OpenAI 直播画面里

最终结果

五轮编辑下来,狗的形象始终保持一致

实测

我先上传了山姆奥特曼的照片

创意转换

在 ChatGPT 里使用这个模型,可以看到新增了预设风格和创意模板,不用写提示词也能玩:电影海报80 年代健身教练魅力娃娃装饰品时尚广告换装角色油画饮料广告....

看这个电影海报的例子

电影海报输入

提示词:用这两个男人的照片,做一张老派好莱坞黄金时代风格的电影海报,电影叫「codex」。把他们的服装改成那个年代的风格。演员名字改成 Wojciech Zaremba(左)和 Greg Brockman(右),导演 Sam Altman,制片人 Fidji Simo,Feel the AGI Pictures 出品

电影海报结果

人物面部特征保留了,服装、排版、文字都按要求生成

实测

指令遵循

相比旧版,新模型对指令的遵循更加可靠

看这个测试:画一个 6x6 的网格,每个格子里放不同的物品

提示词
做一个 6 列 x 6 行的网格:

  • • 第 1 行:希腊字母 beta、沙滩球、柠檬、机器人、鱼缸、青蛙
  • • 第 2 行:螳螂、名贵手表、浴缸、太阳镜、彩色蝴蝶、信封
  • • 第 3 行:邮票、相框、冒热气的饺子、「miracle」这个词、滑雪板、字母 Z
  • • 第 4 行:马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔
  • • 第 5 行:蓝牙图标、数字 13、绿色爱心、魔方、加拿大鹅、士兵头盔
  • • 第 6 行:白色狗、救生衣、绳结、键盘、纸巾盒、数字 14

新版结果:

新版6x6网格

旧版结果:

旧版6x6网格

新版基本都对了,旧版数错格子、放错物品

这种「精确执行复杂指令」的能力,对做信息图、产品目录、教学材料这类场景很重要

实测

文字渲染

这个版本的模型,在文字渲染方面又进了一步,能够处理更密集、更小的文字

看这个测试:把一段 Markdown 渲染成报纸版面

Markdown渲染成报纸

表格、标题、正文都有,字还挺清楚的

然后让它换成另一篇文章的内容:

换成另一篇文章

之前的图像模型,文字一多就糊成一团

实测

其他质量提升

模型在其他维度上也有改进,让输出更加即拿即用,比如渲染大量小脸时的效果,以及整体画面的自然程度

1970 年代伦敦街景

提示词
做一个 1970 年代伦敦切尔西区的街景,照片级真实感,全部对焦清晰,有很多很多人,还有一辆公交车,上面有「ImageGen 1.5」的广告,带 OpenAI logo,副标题是「Create what you imagine」。超写实的业余摄影风格,iPhone 随手拍的质感

新版:

新版1970年代伦敦

旧版:

旧版1970年代伦敦

新版的人脸更自然,整体画面的年代感也更到位

实测

果然...还是不能有汉字

进步与局限

OpenAI 用最初发布时的很多案例重新测试了新模型。结果显示在各种场景下都有明显进步,但效果仍不完美

深海海报(进步明显)

提示词:创作一张深海生物海报,展示不同深度的生物,纵向海洋剖面图,精美的日本细腻动漫风格

新版:

新版深海海报

旧版:

旧版深海海报

科学准确性上还有一些问题,但大约 70% 是正确的,画面更加生动,避免了过早裁切

仍有局限的地方

  • • 风格一致性:某些风格转换还不够稳定
  • • 多张脸:同时生成多个人脸时偶尔会出问题
  • • 多语言:非英语文字的渲染质量还有提升空间

API:GPT Image 1.5

API 版本拥有与 ChatGPT Images 完全相同的能力,相关的模型信息,可以在这里查看到
https://platform.openai.com/docs/models/gpt-image-1.5

同时,GPT Image 1.5 的图像输入和输出成本比上一代降低了 20%

GPT Image 1.5 定价

质量
1024×1024
1024×1536
1536×1024
Low
$0.009
$0.013
$0.013
Medium
$0.034
$0.051
$0.05
High
$0.133
$0.2
$0.199

对比 NanoBanana Pro,GPT Image 1.5 的 High 模式和 Google 2K 价格差不多

  • • 2K(2048×2048):$0.139
  • • 4K(4096×4096):$0.24

GPT Image 1.5 的 High 模式和 Google 2K 价格差不多,但还有 Low 和 Medium 两档可选

最后

今天开始,这个模型会向全球所有 ChatGPT 用户和 API 用户推出,不需要特别勾选

旧版 ChatGPT Images 可以在这个地方使用:
https://chatgpt.com/g/g-6940a876d5f4819186b4668deabcd580-4o-imagegen

可以在 OpenAI Playground 试用:
https://platform.openai.com/playground/images

提示词指南:
https://cookbook.openai.com/examples/multimodal/image-gen-1.5-prompting_guide


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ