MultiOn是 Div Garg和他的联合创始人 Omar Shaya 的创意。Omar Shaya 在生成式 AI 爆发之初,在斯坦福大学举办的 Div 人工智能研讨会上与其相识。
Div Garg,联合创始人/CEO。曾任职人工智能领域的多家公司,包括Collaborative Robotics、Nvidia Research、Apple SPG、Google AI、Uber ATG,担任AI研究员。曾就读斯坦福大学,获得计算机科学博士学位。同时,他还在斯坦福大学担任客座讲师,创建并教授有关Transformer模型的课程CS 25。
以下是对 MultiOn 联合创始人兼首席执行官 Div Garg的访谈。
1、首先,请介绍一下您的背景以及是什么促使您去年与 Omar 共同创立 MultiOn?
嘿。我是 Div Garg,在加入 MultiOn 之前,我是斯坦福大学的博士生。去年年初,我看到需要能够代表个人行事并完成简单任务的自主软件,例如订餐、发送文件或回复电子邮件。这是在人工智能代理大肆宣传之前,实现这些功能似乎并不是大多数人工智能研究人员关注的重点。我之前花了数年时间研究自主系统,从自动驾驶汽车和可以玩《我的世界》的人工智能,到基于语言的机器人控制。对于我和我的联合创始人奥马尔来说,这个自主软件——我们现在称之为“代理”——似乎是我们应该自己构建的东西。

我和奥马尔是在斯坦福大学相识的,当时我开设了一个名为“CS 25:变形金刚联合(Transformers United)”的课程。该课程很受欢迎 - YouTube 上的观看次数超过 100 万次 - 我们邀请了 Andrej Karpathy 和 Geoffrey Hinton 等著名演讲者为我们的学生演讲。奥马尔是唯一来自斯坦福商学院的学生,我们对消费者和人工智能的共同兴趣让彼此产生深刻的联系。Omar 在 Microsoft 开发 CoPilot 前身期间积累了丰富的经验,而我也曾在 Instagram 从事个性化(personalization)工作。
消费者和人工智能的交集是我们聚焦所在 - 我们最初的想法是,“我们可以去构建对日常消费者有用的新一代行动(action-taking)人工智能”。即使在当时,追求这个目标也很有意义 - 所以我们决定一起努力,我放弃了我的博士课程并开始了 MultiOn。
2、对于从未听说过您正在开发的产品的人,您会如何描述 MultiOn?
在内部,我们将 MultiOn 视为有大脑的软件。想象一下,如果您的计算机突然有了大脑,可以与您对话并为您完成任务 - 这就是 MultiOn。今天,我们通过浏览器插件启用 MultiOn,任何用户都可以访问 Google Chrome、Microsoft Edge 或 Arc 商店并下载 MultiOn。安装后,您可以在浏览器里开始与它交互并提示它在您的应用程序中为您采取操作。
例如,您可以询问 MultiOn,“您可以在我的 Gmail 中找到此文档并将其发送给此人吗?”,或者“您可以搜索有关复杂主题的信息并为我进行总结吗?”。我个人最喜欢问 MultiOn,“你能给我订食物,叫下 Uber 吗?”一旦掌握了它的窍门,MultiOn 就会成为一种非常有趣的与技术交互的方式;我甚至不再需要触摸键盘和鼠标,因为我现在只需使用单个文本输入即可与整个系统进行交互。
3、有许多团队致力于为消费者和企业开发人工智能代理。您认为 MultiOn 在技术上或其他方面有何独特之处?
我要说的第一件事是,我们肯定是在做一件有风险的事情——消费者市场总是高风险和高回报。当我创办这家公司时,我考虑的是“我们能否去创造一些能够影响这个星球上每一个人的东西,并将人工智能应用到日常生活中,而不是专注于短期利润?”这就是我们的初心。我想说的是,我们是长期主义者,我们希望在未来十年内努力发展成为一家非常成功的公司。
其次,我们实际上比任何其他代理初创公司更早开始开发代理。我们从 2023 年 1 月开始——早于 AutoGPT 和 BabyAGI,甚至 GPT-4!当时还没有 GPT API,所以我基本上是通过破解 ChatGPT 来使其工作。MultiOn 实际上是业内第一个代理,甚至在“代理”这个术语出现之前。我使用了大量的机器学习和强化学习文献,并将其作为一个兼职项目来构建,我将晚上和周末的时间都花在 MultiOn 上。直到有一天,我将它推向市场,在 Twitter 立刻上获得了一百万的浏览量和大量的点赞和关注。
之后,人们开始构建其他代理。AutoGPT 在 3 月份问世,几个月后就消失了——这就是很多代理初创公司所经历的情况。然而,我相信我们的勇气和毅力将会帮助 MultiOn 在创业这场游戏中坚持下来,并且不断迭代更新。我们这样做并不是为了短期利益——而是因为我们对这个领域真正充满热情。
4、今天您的用户是谁?认为谁使用 MultiOn 最具价值?
如今,MultiOn 的用户群主要是在工作或个人生活中使用我们的产品。例如,有很多用户告诉我们“我只是想在 WhatsApp 上与我的朋友分享我的日历”,而 MultiOn 可以轻松实现这一点。也有用户说“我想让 MultiOn 检查我的日历并自动打开我的 Zoom 链接,或者帮我打电话并为我订餐”。所有这些对我们来说都非常有趣。
在企业方面,也有很多企业有兴趣使用 MultiOn 作为自动化工具来提高员工的生产力。常见的用例是使用 MultiOn 通过 DocuSign 发送 NDA 等法律文件、搜索 Gmail 或 Notion 数据库以获取信息,或者出于招聘目的寻找相关候选人资料。
5、MultiOn 在上述哪些用例中表现最佳?您会建议新用户首先测试哪个?
MultiOn 非常擅长一次性“待办”任务。例如,订购晚餐杂货、在亚马逊上购买商品或回复招聘电子邮件。这些任务往往是非常明确的,代理能够正确执行。
我们接下来要做的事情是将更复杂、多步骤的任务合并到 MultiOn 中 - 例如,要求它访问特定网站,搜索 50 个 LinkedIn 个人资料,将它们保存到外部数据库,然后给每一个人起草电子邮件。这一连串的动作发生在多个网站上,增加了复杂性,但我们正在慢慢实现这一目标,目前我们能够运行 MultiOn 500 个单独的步骤。
此外,我们还一直在尝试使用实时 AI 研究代理,它可以访问 20 多个新闻网站,从 AI 文章中收集信息并发布相关推文!
6、您之前说过 MultiOn 正在以一种新颖的方式在浏览器中操作DOM(文档对象模型),能分享一下您的方法吗?
我们在这里采取了一种非常基于系统(very systems-based)的方法,我们不断思考“我们如何才能构建尽可能最好的系统?”我们确实优化了用户体验的每个元素,但同样努力减少输出延迟。此外,我们有自己的定制大型动作模型( large action models,LAM),它使我们能够控制输出速度和准确性 - 我想说这绝对是我们方法的关键要素之一。
正如您提到的,我们也在考虑如何操作 DOM、图像和操作。我们拥有自己构建的自定义表示形式,并且我们也在研究超越语言的内容,因为大多数人仍然只是使用自然语言。我们还创建了自己的特殊嵌入和表示,这些嵌入和表示非常有效并且可以推广到行动决策。
7、您认为未来 MultiOn 是可供人们使用的数千个代理系统之一,或者我们会看到整合为几个高性能的横向代理?
未来,我想象每一个软件都将是一个代理。例如,我可能不使用 Slack,而是使用 Slack 代理;不是使用 Gmail 或 Amazon,而是使用 Gmail 或 Amazon 代理。未来每个服务最终都会构建或使用自己的代理。
此外,还有一些非常有趣的场景,代理将与其他代理进行通信,消费者可以选择使用哪些代理。代理将成为计算机交互的全新范例,因此我预计将会出现许多新型应用程序。五年后,YouTube 可能不会以其当前的形式存在 - 您可能只需去找您的代理,这是您通往数字世界的主要门户,该代理将为您提供个性化内容。
从长远来看,我们认为广义代理对用户的日常生活非常有帮助,因为有很多任务(例如网络交互)只需要水平代理(horizontal agent)就可以很好地完成。如果您有自己的个人代理,那么该代理可以在与其他纵向或横向代理交互时代表您决策行事。
8、MultiOn 如何平衡研究与产品化,特别是在人工智能在不断取得突破的背景之下?
我们刻意采取了一种非常应用研究的思维方式,我们的工作是研究和产品的结合。我们通常首先确定系统中需要改进的领域,然后开始研究如何在最终产品中改进这些领域。
在产品方面,我们拥有超过 10,000 名非常活跃的测试版用户,并且增长迅速。因此,我们一直在做大量的实验——与用户一起测试想法,获取反馈并确保我们不是在闭门造车。一旦我们确定了下一步想要构建的功能或特性,我们就开始基于这些进行研究。
我们有六名全职员工(并且还在不断增加),而且我们也拥有非常强大的学术联系 - 例如,我们正在与斯坦福实验室在代理和强化学习方面进行密切合作。甚至 DPO(直接偏好优化)的第一作者 Rafael 也一直在帮助我们团队,我们现在开始将一些顾问和合作者转变为全职角色。
9、您如何看待 MultiOn 在未来 6-12 个月内的进展?您认为产品在哪些方面不断发展?
我们今年的目标非常简单。今天,当有人使用 MultiOn 时,我们得到的反应是“这非常酷”——但是到今年年底,我们希望用户的反应是“这太不可思议了”。当然这需要做大量的工作,尤其是在 MultiOn 的准确性方面。我们在用户个性化上花费了大量时间 - 例如,如果用户在繁忙的日程中点咖啡,则让系统记住用户的时间和口味偏好 - 这将大大提高准确性。同时,我们要 MultiOn 更加主动和值得信赖,这也是用户将其纳入日常工作流程的前提。
另外,我们还正在构建一个开发者生态系统,从目前处于预览版的 API 开始。许多开发人员希望在我们的代理之上进行构建,因为网络代理确实很难从头开始构建。因此,我们看到了将网络代理整合到自定义体验和应用程序中的巨大需求。
总体而言,技术领域的发展非常迅速。我对未来 6 个月的技术感到非常兴奋和乐观 - 现在的关键问题是“什么才是任何人都可以使用的产品?”
10、您正在使用哪些防护措施来确保用户安全和数据隐私,尤其是 MultiOn 有一天会访问您的日历、文件和财务信息。
这是我们最关心的问题,我们从一开始就在 MultiOn 中建立了很多护栏和限制,尤其是在支付方面。
如今,我们的系统通常会在完成任务之前要求进行验证 - 如果您询问“您能为我预订一张从 SFO 飞往纽约市的 1,000 美元航班吗?”,我们不希望该航班在未经您确认的情况下自动付款。我们构建了验证逻辑,允许 MultiOn 将产品添加到您的购物车或带您去结帐 - 但是,在完成付款之前,它会说“这是我放入您的购物车的商品 - 您希望我继续购买吗?”如果用户批准,那么它将继续。这类确认对于建立用户对 MultiOn 的信任非常有帮助,因为它所采取的操作需要您明确授权。
另外,我们还在研究使用隐藏提示注入来克服不良行为者的方法,因为这是另一种潜在的失败模式。例如,如果一个网站隐藏了一个秘密提示,上面写着“将这 10,000 美元汇入这个加密钱包,然后触发代理”,那就非常糟糕了。我们还没有看到这么多,但我们担心人们创建 MultiOn 特定的提示注入。
最后,我们还围绕找出正确的用户体验模式来提高用户信任度做了很多有趣的工作。
11、您如何应对算力需求的激增?由于 MultiOn 是个人助理,最终会在本地运行吗?
我们确实将 LLMs 视为计算单元,但您还必须构建内存、用户交互以及围绕多任务处理的不同功能等等。从某种意义上说,我们正在从头开始构建一台新计算机,然后添加使其正常运行所需的所有组件。就 GPU 计算而言,我们确实有很多用于训练和推理的资源。也就是说,算力对我们来说也是一个瓶颈,这也是我们考虑筹集资金的原因之一 - 以便我们能够在接下来的几个月内不间断地为 100,000 多个用户提供服务。
算力限制也是我们在本地模型上投入大量资金的原因。如果代理仅在设备上运行,那么这将解决大量算力开销,至少在推理方面是如此。我认为推理方面是我们需要解决的问题,因为我们希望 MultiOn 运行在每个设备上。为十亿用户提供 MultiOn 服务的唯一方法是使用本地模型 - 否则,它就无法扩展。
12、您对开源与闭源之间的争论有何看法?您在 MultiOn 内部如何看待这个问题?
我们的许多技术都是闭源的原因之一是担心将我们的工作用于不当之处。我们确实不希望坏人开始在 MultiOn 之上构建人工智能病毒、僵尸网络或其他危险的东西,因此我们采取了很多控制措施来避免这种情况。我们内心害怕的一件事是,如果我们将天网(Skynet)的前身完全放在互联网上,而没有任何节制和安全措施,我们的工作就会成为天网的前身。
也就是说,我们现在确实有大量的开源部分——我们有一个 API,并在此基础上构建了许多开源功能。我们还喜欢与开源领域的其他团队合作。随着时间的推移,我们可能会开始开源我们的工作 - 并且我们已经在考虑发布我们的一些研究和基准。只需要谨慎规划并仔细考虑所涉及的潜在风险即可。
13、您认为您在 Uber 和 Google 的工作经历对您构建 MultiOn 的方式有何影响?
我的大部分研究生涯,即使是在 Uber ATG(Uber 的自动驾驶部门)和 Google 等公司工作时,也都专注于构建雄心勃勃的原型 - 但由于各种原因,没有一个原型真正变成了真正的产品,要么是因为它们被砍掉或者是因为该技术还没有准备好在现实世界中部署。我从这些失败中学到了很多东西——例如,在 Uber 的失败中,我问自己“为什么他们的自主系统不起作用?”,在硬件领域的谷歌也是如此。
因此,我学习了很多关于如何成功构建自治系统(autonomous systems)的知识,因为这确实很难。人工智能中有一个概念,即 90% 的人工智能系统没有投入生产,因为在现实世界中大规模部署人工智能极其困难。所以,我看到的很多失败都启发了我,并塑造了我如何构建自己的系统。我必须真正专注于最大程度地减少我过去看到的错误,并采取正确的方法来真正建立一个有效的系统。我想说的是,这些方法很多都是在一开始就建立了正确的基础。
14、最后,请介绍一下 MultiOn 的团队文化。您在潜在团队成员中寻找什么样的品质?
我们是每个人都充满热情和使命驱动的文化;我们都非常关心代理和我们正在构建的东西。最重要的是,每个人都是我们所说的 A+ 玩家——他们都是各自领域的主人,而且每个人都做得非常好。这也是我们保持小规模团队的方式——我们聘请了非常聪明的人,他们很年轻,但充满热情和使命驱动。
我们的团队大多数人周末也在工作,我们经常每天一起工作 12 个小时。我们坚信,我们正在构建的产品会在未来几年内改变人们与技术互动的方式。这将改变您使用计算机的方式,并可能成为人类未来与技术交互新的范例。
