这种转变,很大程度上是由于行业标杆的推动——去年9月OpenAI发布o1,以及今年初DeepSeek的进展,让整个行业更加坚定地走向了强化学习之路。
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">他提到一本对他影响很大的书《The Beginning of Infinity》,书中有两句话:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">“问题是不可避免的”ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(15, 76, 129);">和“问题是可以解决的”。能感受到,他在研发过程中遇到了数不清的难题,而这两句话,某种程度上成了他坚持的信念。ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">他谈论的以下几个方面是我比较关注的:ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">过去一年大模型的技术演进ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">最明显的是,整个技术范式正从“监督微调”转向“强化学习”。具体呈现为两种方式:Agent的核心在于与外界交互,体现为多轮对话和使用工具。工具目前有联网和代码等第。以后会有个性化的工具,例如定制的文档接口,定制的公司的数据库,定制的api等等。如果Agentic LLM可以泛化到这些长尾的问题上,那么专用的Agent可能就会被淘汰。
工作其实就是多轮使用工具的序列。哪怕是程序员,写代码也只占了工作的一小部分。
Agent 系统的主要目的不是模拟人,而是通用。所以它不需要跟人在每一个环节都对齐。它在目标是可以和人是对齐的,但是在做法上面,可能在某些方面是类似的,但是也有可能是不相同的。
Agentic LLM最大的问题是缺乏能真正衡量Agent泛化能力的Benchma。目前的benchmark非常不足,在某一些benchmark会过拟合不代表真正性能的提升。因为当前Agent的训练和评估都是“单点”的,容易在特定Benchmark上过拟合,而非获得真正的通用能力。
期待用Innovation的方式提高Agent能力,当模型能自我迭代(拥有Agentic功能的模型参与自身的开发过程)时,才会迎来真正的突破。
听完这期播客,不知为何我想起了推石上山的西西弗斯。知识的边界不断拓展,旧问题解决了,新问题又来了——或许重要的不是终点,而是攀登本身。杨植麟目前坚持的,也许正是这样一种信念:大模型的前景尚未明朗,但只要持续把Agentic LLM做下去,就有机会改变很多事情。而即便问题永远不断,享受这个过程,本身就已是一种回应。
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |