返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

看完杨植麟访谈,才意识到 Benchmark 是当前最关键的卡点

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 19:25 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">听了张小珺对杨植麟的访谈播客,我最大的感受是,杨植麟已经清晰地将自己定位成一位“攀登者”。他花很少篇幅谈论商业化,却深入分享了很多AI算法和趋势的看法,其中“强化学习”和“Agent”是出现频率最高的词。对比他以前的访谈,除了对Scaling Law的坚持没变,其它观点几乎都有刷新。

这种转变,很大程度上是由于行业标杆的推动——去年9月OpenAI发布o1,以及今年初DeepSeek的进展,让整个行业更加坚定地走向了强化学习之路。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">他提到一本对他影响很大的书《The Beginning of Infinity》,书中有两句话:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">“问题是不可避免的”ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">和“问题是可以解决的”。能感受到,他在研发过程中遇到了数不清的难题,而这两句话,某种程度上成了他坚持的信念。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">他谈论的以下几个方面是我比较关注的:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">过去一年大模型的技术演进

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最明显的是,整个技术范式正从“监督微调”转向“强化学习”。具体呈现为两种方式:

    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  1. ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;text-indent: -1em;display: block;margin: 0.5em 8px;color: rgb(63, 63, 63);">
    1.ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">“强思考”推理模型:让模型学会反思——先提出猜想,再验证对错。这种方式大幅提高了模型的推理能力,从原来多次生成才可能答对(Pass@k),进化到经常一次就命中正确答案(Pass@1)。
  2. 2.多轮Agent范式:模型不再是“一问一答”,而是可以边思考、边操作,通过多轮交互完成任务。不管是通过更多轮次交互,还是更深入的思考,本质上都是同一种思路——在推理阶段投入更多计算,也就是“Test Time Scaling”。

Agentic LLM(这是我认为最有价值的一段)

Agent的目的

Agent的核心在于与外界交互,体现为多轮对话使用工具。工具目前有联网和代码等第。以后会有个性化的工具,例如定制的文档接口,定制的公司的数据库,定制的api等等。如果Agentic LLM可以泛化到这些长尾的问题上,那么专用的Agent可能就会被淘汰。

工作其实就是多轮使用工具的序列。哪怕是程序员,写代码也只占了工作的一小部分。

Agent 系统的主要目的不是模拟人,而是通用。所以它不需要跟人在每一个环节都对齐。它在目标是可以和人是对齐的,但是在做法上面,可能在某些方面是类似的,但是也有可能是不相同的。

做Agent,大模型公司 vs 应用公司有什么不同?

  • • 应用公司是在“逆向工程”:通过设计提示词、组合工具和上下文工程等方式,激发模型能力。
  • • 大模型公司是在做“正向工程”:在训练阶段就内建了对工具的理解和使用能力,所以在对应场景中表现更自然、更强大,比如Claude Code和ChatGPT Agent。

最大的瓶颈

Agentic LLM最大的问题是缺乏能真正衡量Agent泛化能力的Benchma。目前的benchmark非常不足,在某一些benchmark会过拟合不代表真正性能的提升。因为当前Agent的训练和评估都是“单点”的,容易在特定Benchmark上过拟合,而非获得真正的通用能力。

需要解决的问题

  1. 1. 高频使用的工具还可以做得更好
  2. 2. 长尾的工具无法泛化
  3. 3. 缺乏能真实反映Agent水平的Benchmark

未来

期待用Innovation的方式提高Agent能力,当模型能自我迭代(拥有Agentic功能的模型参与自身的开发过程)时,才会迎来真正的突破。

感想

听完这期播客,不知为何我想起了推石上山的西西弗斯。知识的边界不断拓展,旧问题解决了,新问题又来了——或许重要的不是终点,而是攀登本身。杨植麟目前坚持的,也许正是这样一种信念:大模型的前景尚未明朗,但只要持续把Agentic LLM做下去,就有机会改变很多事情。而即便问题永远不断,享受这个过程,本身就已是一种回应。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ