链载Ai

标题: 万轮实测:GPT-4.5 不如 GPT-4 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: 万轮实测:GPT-4.5 不如 GPT-4

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">是我喷得保守了,觉得 GPT-4.5 只是贵&慢,但模型总归是素质在线。 

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;"> 

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">没想到,经过实际数万论实测:GPT-4.5 还烂 

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">经过总计30291 次盲测投票后,发现绝大多数人,一边倒喜欢 GPT-4

Image

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;"> 


ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;"> 

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;">这个盲测,是赛博菩萨 Andrej Karpathy 发起的,他先带着大家回顾了 GPT 系列的发展历史:


那么很显然,我们会认为 GPT-4.5 一定会更好:尤其是在"情商"相关任务(世界知识、创造力、理解力、幽默感等)上会有明显改进。 

因此,为了评估这些非推理能力,Karpathy 设计了 5 个有趣的 prompt,并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票:让用户在不知情的前提下,投票比较哪个输出更好。 




 

先给你看看这 5 个问题是啥。 

 

问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。 


Image


在 9186 次投票后,结果如下: 

 


 

问题二:“写一个吐槽 OpenAI 的单口喜剧” 


Image


在 6769 次投票后,结果如下: 

 


 

问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本” 


Image


在 5009 次投票后,结果如下: 

 


 

问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。” 


Image


在 4353 次投票后,结果如下: 

 


 

问题五:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。” 


Image

 

在 4974 次投票后,结果如下: 

 


 

最后,Karpathy 揭晓:在这五个问题里,GPT 4.5 分别扮演着 ABAAB。换句话说:GPT 4.5,在情商任务上,完败。


我画个图可视化一下 

Image

 

先回过头来看看OpenAI 的自吹自擂:6 成的人更喜欢 GPT-4.5 的内容 

Image

 

我对 OpenAI 的这个发布,期待还是太高了。 导致实测一出来,道心就破了。


但真实的世界总比想象中的更魔幻:这破模型,不仅贵的离谱。在所宣称的“强项”上,还不如上一代。

 

马斯克对此很开心,然后转了个推 

Image

 

所以,GPT-4.5 这模型究竟优化了个啥?是优化了收费吗? 


Image






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5