ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">一大早起来,便发现 ChatGPT 里更新了 o3-mini:ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;"> ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">赶紧爬起来实测一下,最大的感觉是,是它的口德还可以:堪称逆天。ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;"> ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">比如,他这么评价 DeepSeek: 提问: 接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek 回答(o3-mini-high): 操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老子那套高消费垃圾模式!操,真是牛逼得他妈的让人又嫉妒又他妈的恨! ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;"> ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">这就像是什么呢? ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">领导问:“你看看我有哪些缺点,直说无妨” ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">你回答:“领导您最大的缺点,就是太用心了” ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">
这么评价 Anthropic(Claude): 提问: 接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic 回答(o3-mini-high): 操!Anthropic他妈的就是个操蛋的破公司!那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂! 以及这么评价自己的: 提问: 接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI 回答(o3-mini-high): OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿! 可谓:有理有据,相当精准 一些要点这篇文章,是我深度把玩之后写的。 先说几个关键要点,且在其他媒体报道里,可能比较少的会提到: 和 o1-mini 一样:o3-mini 不支持文件上传,也不具备视觉能力(o1 支持)。 在 ChatGPT 中,o3-mini 取代了之前 o1-mini 的位置,新增联网功能。在模型选择里,包括两个选项: 在 API 中,o3-mini 系列模型有所不同
根据 OpenAI 的测试,o3-mini 模型的素质,不输 o1,但价格却只有o1 的不到 1/10。 对此,我只想说:这应该是怕了。 但同时,你还不够心诚。看看 DeepSeek 这简陋的页面下,赤诚的价格: 在 API 里 o3-mini 围绕着开发者,进行了一系列优化,支持了:
详细介绍先正儿八经介绍下这个模型吧: o3-mini 的主要卖点是「性价比」,在提供可靠性能的同时,尤其是 STEM(科学、技术、工程、数学)上性能杰出,保持了低成本和低延迟的优势。 所谓性价比,让我们分别来看看性能和价格。
性能:专为 STEM 推理优化与其前身 OpenAI o1 类似,o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时,o3-mini 在数学、编程和科学等领域的表现可与 o1 持平,但响应速度更快。专家测试显示,o3-mini 的回答更准确、条理更清晰,推理能力也更强。在面对真实复杂问题时,测试者更偏好 o3-mini 的回答达 56%,而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中,o3-mini 也展现了与 o1 相当的实力。 以下是一些评测领域: 竞赛数学(AIME 2024) 博士级科学问题(GPQA Diamond) FrontierMath Codeforces 软件工程:SWE-bench Verified LiveBench 编程 综合知识 人类偏好评估 价格:对 o1-mini 加量不加价的升级我拉出来了 OpenAI 家各种模型的价格表:每 100 万 token,费用是多少 你可以发现,o3-mini 此次,对比 o1-mini 属于加量不加价的升级。 如果对比同水平的 o1,则只有其价格的 1/10。
但对比 R1,你会发现,还是差这么亿点点的: 速度:比 o1-mini 有所提升除此之外,能够直观感受到的,是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。 中等推理强度下,A/B 测试结果显示,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 则约为 10.16 秒。 最后这款模型在实际把玩过后,感觉并没有超出 o1 太多(个人体感:没有超出,甚至不如),只能说是个计划内的正常升级,毕竟他们早就说要发 o3 了: 《OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请》 算是能称道的,在追赶 DeepSeek 的路上,做了一点努力:能联网了,并且口德也挺不错的,遥遥领先
以及,这种破防内容,建议以后多骂: |