链载Ai

标题: Manus实现猜想和思考 [打印本页]

作者: 链载Ai    时间: 昨天 12:53
标题: Manus实现猜想和思考

预测

Manus的产品合伙人在产品正式发布之前发了一个预告的公众号内容,我做了一个预测,最后发现基本都猜中了,现在回想一下其实整个逻辑并不复杂,就像他们自己说的一样,其实没有什么秘密,只是大家好像都没有注意到一些底层技术变化带来的影响。

当时预测的逻辑是这样的:

所以从上面的几点也基本可以推断出来大概的产品形态,虽然基于之前的信息能基本预测到,但是实际能做出来看到最终的产品还是非常惊喜的,有种仿佛看见思想的齿轮咬合现实世界的传动轴,思维星火在物质世界燎原成功


实现猜想

对Manus实现猜想分析的出发点并不是想去了解所谓的是不是套壳或者所谓的壁垒,而是希望通过分析的方式来锻炼自己对于AI的技术进展和能力边界的思考,这才是更有价值的部分。

所有的分析都是基于一些用户自己分享的案例和官方的大部分的案例,所以大概率是错的,但是对错并不重要,能促进思考和启发更加重要

Agents

在开始分析之前,我们还是需要沿着预测的逻辑看看Agent到底是什么。Agent的第一次被大众所认知,应该是在2023年3月GPT-4发布之后,几个开源项目的发布,其中最引人关注的就是AutoGPT,截止到目前,这个项目在github上的Star数是夸张的173K,当时看过相关的效果之后,最大的感触就是原来还可以这样设计和使用AI,而不是单纯地进行问答而已

当然实际体验之后我们也会发现这个项目在当时AI能力的加持下的一些问题:

  1. 稳定性太差了,非常容易有些任务在规划和执行的时候进入了死循环,导致非常高的成本,毕竟当时GPT-4的价格比现在高出非常多,而如果不是GPT-4作为底层模型,可能连基本的规划任务都没办法很好完成,所以我们可以看出来底层模型的智能程度和成本情况对于Agent的影响非常大(而这正是2024年AI巨大进展的地方,推理模型的出现极大的增强了模型的规划和反思的能力,DeepSeek的各种创新也在极大的降低模型使用和训练的成本)
  2. Agents对于工具的调用非常不成熟,以及能支持的工具也比较有限(特别是coding能力),由于基本完全依赖模型在提示词层面进行工具的调用,以及需要有多个模块协作来完成任务,一个环节出问题就可能导致任务失败,所以这种多Agents的架构下的任务成功率非常低,基本是不可用的程度。(工具调用在2024年也有非常大的进展,不管是基于多模态的内容识别,还是在后训练的时候基于工具调用的微调而不是基于用户对话进行微调,使得AI使用工具使用的成功率都有了极大的提升)

所以从上面的两点我们也可以看到,底层模型的智能程度和工具使用是Agent的两大基础,而这两大基础在2024年下半年都有了非常大的进展

?

这些事情反复的在告诉我们一个道理,做AI产品一定要把底层模型的进化当成一定会发生的事情,做更加前瞻的设计和思考,而不是去解决模型当前存在的问题

当时还有一篇文章也详细的介绍了Agents的框架和相关设计逻辑,现在回看我们会发现,Agent怎么做其实一直都有方向,只是从2023年开始到现在我们不停的被各种其他的事情带偏了,而没有对于底层技术的发展引发的上层应用的变化保持足够的关注

现在仔细看之前的文章和研究看一遍,发现答案可能一直都在。当然这可能也是当前AI产品创业中最难的部分,你不知道现在不行的事情是不是什么时候就可以了,而如果你没有意识到这个事情的发生的话,你就可能会做了非常多的无用功,或者错过一切


具体案例的分析

主要的分析方式就是把官方的案例和一些用户的案例进行回看,看看里面到底发生了什么,有哪些特殊的地方,以及基于这些表现来完成产品设计层面的猜想。当前也会结合一些官方的说法来综合考虑可能的技术方向和具体的解决方案

这个过程中也发现有些官方的案例中也存在一些明显的错误情况,可能也是产品早期表现不稳定的一个表现

基于我们能看到的部分:

  1. 任务是在一个独立的虚拟机环境执行的,虚拟机是linux的环境,每次都会基于任务进行单独的文件夹的新建

2. 新建文件夹之后,会进行todo.md文件的新建,拆分本次任务具体的todo内容,这个内容的拆分也有几个值得注意的地方







    欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5