返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

陶哲轩使用o3 mini一手测评来了:好坏参半

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">数学大神陶哲轩(Terence Tao)刚发了一篇他使用o 3 mini感受帖子,给大家划个重点

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;padding-left: 8px;color: rgb(63, 63, 63);">大神也好奇AI搞科研怎么样?

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。 为了搞清楚这个定理的证明,现有三种方法:

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  1. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    1.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">传统手撸:笔和纸,自己硬啃
  2. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    2.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(183, 110, 121);">传统搜索:用搜索引擎,网上冲浪找答案
  3. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;text-indent: -1em;display: block;margin: 0.2em 8px;color: rgb(63, 63, 63);">
    3.AI 助手:直接问大语言模型(LLM)

陶哲轩直接选择了第三种——求助大语言模型,他用的是o3-mini模型。 结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:

https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

大神亲自测试,这波必须点赞! 陶哲轩也表示,这次体验让他觉得,对于快速获取专业领域内的标准论证细节,LLM 真是个好帮手。 之后自己再去验证一下模型的答案是否正确就行

但是!AI也不是万能的

尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪 (Ruzsa-Szemeredi) (6,3) 定理。 这回,模型的表现就没那么完美了

  • 初次尝试:模型给出的策略方向是对的——用超图对图形编码。 但是,关键细节完全缺失
  • 深入追问:陶哲轩不断引导,模型依然没能抓住要点,比如如何用 (6,3) 条件来限制编码图中不需要的三角形,以及如何先简化到线性超图这种核心思路。

最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终勉强给出了一个基本正确的推导证明。 大神都得先自己搞懂,才能“教”会AI,这多少有点无奈

陶哲轩的总结和反思

两次测试下来,陶哲轩的感受是:

对于研究级别的数学任务,目前的模型表现波动很大。 有时 “在用户给出粗略指导下就能真正有用”, 有时却 “需要用户给出大量详细指导才能发挥作用”。 更强大的模型,可能前一种情况会更多一些。

他认为, 对于那些非常标准的问题,比如维基百科或 StackOverflow 上能轻松找到答案的,LLM 表现出色。 但问题越偏门、越冷门,模型的成功率就逐渐下降。 想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持

这是 Terence Tao 的推文全文翻译:


陶哲轩
@tao@mathstodon.xyz
加州大学洛杉矶分校 #数学 教授

今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由 n 个导出匹配组成的 n 个顶点的图只包含 o(n^2) 条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。 在这种情况下,我选择了第三个选项(使用 o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d

这满足了我眼前的需求 - 并指出了 LLM 的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性 - 但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的 3-均匀超图大小的 (6,3) 定理。 在这里,结果明显好坏参半(见上方链接)。 最初的答案有正确的总体策略 - 使用超图来编码图 - 但缺乏所有关键细节。 当我进一步追问时,它没有提及两个最重要的想法 - 使用 (6,3) 条件来限制编码图中不需要的三角形,或最初简化为线性超图 - 但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。 但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)

我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。 对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或 StackOverflow 等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使 LLM 的输出达到可用的形式。(2/2



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ