凌晨4点,OpenAI的GPT4.5专场直播,终于姗姗来迟。2023年3月15日,GPT4发布,要多惊艳有多惊艳,那时候,所有人都是统一的一句话:卧槽,太强了。然后从2023年年末开始,整个行业都在预期下一代GPT模型要在2024年的年初发布。果等了整整一年,多模态4o来了,全新的推理模型o1来了,可下一代GPT基座模型却迟迟没有身影。在发布的规格上,也是着实有点惨淡,甚至连奥特曼都没来。更没有GPT4和GPT4o那种秀上天的演示。只有跟去年十二天专场直播一样,一个朴实无华的小房间。突然想起当年GPT4刚发布时,布罗克曼那一段惊艳的多模态实机演示,给我带来了真的不小的震撼。在本子上画了一个网站的草稿,拍照给了GPT-4,然后前端界面就做好了,带了HTML的代码。看着好像都比4o强一些,但是我发现一个很诡异的事情,因为AIME 2024那个基准,我测过kimi1.5、智谱的zero等等,所以记的比较熟。在这个评测里,AIME2024几个模型的得分分别为:GPT4.5:36.7%,GPT4o:9.3%,o3-mini(high):87.3%。03-mini(high)的数据是没问题的,跟之前发布o3-mini的时候得分一致。 但是在o1发布的时候,我明明记得,对比图里的4o的AIME2024的得分,是13.4啊。怎么今天这发了个GPT4.5,GPT4o的评分还能掉4个点的,这也太抽象了。。。第一个是准确度,第二个幻觉率,有一说一,这块确实不错,至少是OpenAI家最准的模型了。他们自己列了一个还算比较好玩的题,让GPT-1到GPT-4.5全都答了一遍,这个世纪问题是这样的: 而GPT4.5,终于会诚实的告诉你,我不知道了,这是一个未解之谜。 至于代码这块,本身也不是推理模型,所以也并没有指望特别多强。 不过根据三方的基准测试,就纯能力上,看着还行,打不过Claude 3.7Sonnet也正常,再怎么说那也是Claude。X上有大佬也测了下那个经典的物理小球case,效果挺不错的。 但是,还有一点是不得不提的,就是抛开成本谈能力,那就是耍流氓。GPT-4.5的价格,在我第一次看到的时候,我以为我眼睛出问题了。 每百万输入是75刀,每百万输出是150刀,哥,Claude 3.7百万输入才3美刀,百万输出才15美刀。 我都不想拿DeepSeek跟你比,都是非推理模型,DeepSeek v3的价格你知道多少吗。人百万输入人民币2块钱,相当于0.27美刀,输出是8块钱,相当于1.1美刀。输入是DeepSeek v3的280倍,输出是150倍,不是,我真的不理解啊。 目前,GPT-4.5已经对200刀的Pro会员开放,预计这几天就对Plus和Team用户开放。我自然也是第一时间拿到了GPT-4.5的体验资格。目前识图、搜索、画布啥的都支持,但是4o的语音、视频、共享屏幕啥的都没有,算是个退步。而且有BUG,就是在问一些史实性的问题的时候,我明明没开搜索,非要给我强制开搜索去回答,就非常的离谱。 相比于4o,他们所说的情商能力,确实有了一些进步。比如这个问题:朋友总是爽约,我想发短信表达愤怒但又不想绝交,我该怎么回复他。如果是4o的回答,就会很der比,一股子没脑子没情商的人机味。然后我又问了一个小小的逻辑问题,GPT-4o能理解。GPT-4.5直接懵逼了,一直在理解情绪,这情商高的把智商干没了?然后就是写作能力了,我自己测了几个常用的写作故事case,感觉...好像也不是那么尽人意,而且超级慢,慢的我想吐,感觉回到了GPT-4的年代了,一个字一个字的往外面蹦跶。 我都不说跟Claude 3.7和Grok3还有R1比,我真的觉得,还不如前段时间迭代后的GPT4o写的好,真的稀碎。。。 坦率的讲,对OpenAI期待有多大,失望就有多大。 就现在的状况,我觉得你永远可以相信DeepSeek。未来GPT-5是整合了o3的模型,也是混合模型了。你但凡慢一点,或者停下,身边的竞争者,就会呼啸而过。 |