字节跳动副总裁朱骏：从大模型到用户体验，在做豆包产品时的一点感想

显示全部楼层

豆包APP是字节跳动于2023年6月推出的AI对话助手。目前在苹果APP Store和各大安卓应用市场，豆包APP的下载量在AIGC类应用中排名第一。

在5月15日的火山引擎春季Force·原动力大会上，字节跳动产品与战略副总裁朱骏分享了字节在做豆包产品时的一些思考。字节是如何基于豆包大模型来开发AI原生应用的？为什么取名“豆包”？产品设计有哪些思考？

以下为朱骏的演讲全文：

上周，组织火山引擎大会的同学找到我，让我提交一张偏商务风的照片，他们要把这张嘉宾照片放在网站上。我扫了一下自己的相册，商务风没有，邻家大叔风很多，很难登上大雅之堂。

那怎么办呢? 既然我自己就是做AI的，这个可难不倒我，我打开了我们的Al分身产品“星绘”。

首先，我试着给它一个Prompt，“穿着西装，在火山引擎大会上慷慨陈词”。这是它给我呈现的照片。

我们看到“慷慨陈词”的态度有了，但是“火山引擎”它理解岔了。目前这个视觉生成模型，就像是一个画画特别强，但是待在家里画画的艺术生，对于像“火山引擎”这样的物理世界的知识掌握还很有限。大概率是要等后面语言模型和视觉生成模型完全统一以后，才能把这种问题彻底解决。

接下来给了它一个难度更低的任务：“商务照、西装、手插在口袋里望着远方”。这回结果肯定可用了。它也就成了我交给主办方的照片。

这只是大模型能力应用在我们日常生活中的一个小小例子。前面谭待提到的火山引擎云上的各种大模型，它们不只是跑服务器上的一堆代码，而是需要找到最适合的应用形态，以足够自然的交互形式，才能让更多用户用起来，而且愿意用。

过去一年，字节也在大模型的产品形态上做了比较多的学习和摸索。和AI时代之前做产品设计比较，我的个人感受是既有共性又有很大的差异。共性是用户的核心需求还是那些，比如：用最高效、最方便的方式获取信息的需求，给工作提效的需求，自我表达和创作的需求，让自己变好看点的需求，社交娱乐和教育学习的需求等等，都没有变。差异点是，以前是在成熟的技术上想应用，只要用同理心去理解用户的需求和使用体验，就能做出一个还不错的产品。现在有了新的难度，因为产品底下的技术不再是一个稳定的地基了。大模型的能力目前很多维度上让人惊叹，但也在很多维度上有缺陷，同时又在快速演进，每隔三个月、半年都会发生很大的变化。而且它的能力改进往往不是线性的，隔一段时间可能就会出现一个跃迁。

所以做大模型应用一个很大的挑战是，在这个动态发展的过程中，不仅要判断大模型现在能解决好什么任务，同时可能更重要的是要尝试预测半年、一年后大概能把什么样的任务解决好。一个任务如果解决到20分、50分可能都是一个不太可用的状态，但是它一旦达到60分，可能使用率就突然能上来了。以搜索任务为例，去年上半年大模型回答问题时10道题可能错6道，那就是实际不可用的状态。但随着模型能力提升，幻觉大幅降低，再配合搜索引擎做知识增强，现在就达到了可用的状态。当然后面提升的空间还非常非常大，比如解决各种垂直搜索、更复杂问题的回答，甚至是用户今天在搜索引擎里都回答不了的问题。

所以做大模型产品的挑战和乐趣是，需要在这种持续动态的技术发展中，不断去判断下一个产品的PMF （产品市场匹配点）可能是什么。

去年我们一个重点投入的方向是豆包App，我想分享一下对豆包这个产品的一些思考，希望对于计划在字节大模型上做应用开发的开发者，也能起到一点点参考作用。

首先，为什么名字叫豆包？很多人都问我：豆包这个名字好像跟AI没有什么关系，难道不应该用一个更有科技含量、更凸显智能的名字吗？

豆包的名字背后也有一个小故事。我们去年6月在给产品起名时，首先确定下来产品起名的通用原则是，简单、好读、好记。

与此同时我们也为豆包这类产品定义了三个产品设计原则。第一条就是“拟人化”。

“拟人化”是大模型产品的新特性。AI 除了带来了新的能力，也带来了新的交互方式，用和人类对齐的交互体验，降低使用门槛，也让用户在使用产品时感觉到产品有类似人的温度。为了体现这种拟人的感受，我们希望产品的名字，就像用户对一个亲密朋友日常称呼的昵称。

在这个方向下，我们列了很多候选，其中有些很难注册商标，最后我们就很快选中了豆包。当时我们想，反正以后如果有更好的名字也还可以改嘛。

结果产品上线后，看到很多用户都在猜测和讨论：为啥字节的大模型产品叫豆包。我们看到了两个很有意思的来自用户的解释：一个是，豆包=抖音的官方bot，“抖bot”谐音就是豆包；一个是说豆包=“都包了”，工作生活学习的需求都包了，寓意是通用助手的产品愿景。

创意来自民间。所以后来有人再问我豆包名字的含义，我就用这两个来自用户的解释回答了，问的人也都很信服。

我们定下的第二条设计原则是，它需要离用户很近，随时伴随用户，嵌入用户的不同使用环境。应该是豆包到用户身边，而不是用户到豆包身边。

比如，我有很多对豆包的使用是在户外，有什么问题我就随时问豆包。为了让豆包在这种移动场景里交互更方便，像一个随身携带的百事通，我们很早投入了很大力度优化语音交互体验，包括基于大模型的ASR和超自然的TTS音色，尽量做到类似和一个真人对话的感受。

比如“五一”假期，我去四川自贡转了一圈，旅行途中我不断问它：给我介绍一下恐龙博物馆，给我说下自贡的井盐历史，等等。晚上和朋友吃饭时上了道皮皮虾，虽然很好吃，但我对皮皮虾怎么剥皮一直都不熟练，我就问一下豆包怎么剥皮皮虾。豆包不仅回答了我的问题，同时推过来一个抖音视频。通过视频，我非常直观地看到了剥皮皮虾的技巧。

但我也可能不在手机上，而是在电脑桌面端工作。在这个场景里，除了浏览器里的 Web 应用，我们也提供了豆包的桌面客户端，这是为了在 PC 上离用户更近。举个例子，如果你是一个自媒体的从业者，可以在豆包桌面版本上点击“文案创作”这个“AI技能按钮”，选择“抖音文案”，然后填入主题“介绍建筑师安藤忠雄”，一个分镜头的抖音视频脚本就生成好了。

但是还有很多时候，用户既不在浏览器里，也不在豆包的桌面客户端，而是在读PDF，或者在写代码。这时候，豆包桌面插件能够通过划词选中的方式，被用户在任何地方唤起，帮助用户就近解决任务，例如基于 PDF 的总结和问答，在编程时生成代码注释或者修改代码等。

这些都是希望豆包离用户近，尽量嵌入用户使用环境的例子。

第三个设计原则是“个性化”。虽然通用大模型能解决非常广泛的任务，但实际上，我们看到用户有自己个性化的需求，包括对智能体的功能定位，回答风格、声音、形象、记忆都有非常个性化的需求。

在智能体世界里，我们觉得未来用户大概率会有一个主要的智能体（比如豆包）做最高频的互动，解决很多任务；但是也会因为个性化、多样化的需要，和很多其他的智能体互动。

比如我们团队的一位女生，在豆包上捏了一个英语老师的智能体。除了用自然语言定义了“这个老师需要用英文对话，并且在对话中随时指正用户的语法错误”这个功能，也定义了她自己喜欢的声音和形象。平时在路上和“他”用语音消息的方式对话，回到家还会用实时通话模式来模拟英语口语对话。

但对于那些更复杂的，需要更高阶能力，甚至更异构的交互方式的智能体，我们也提供了一个智能体定义平台“扣子”。除了自然语言定义外，也支持通过工作流、代码、插件，赋予这个智能体更强、更稳定的能力。

比如，我们的一个教育产品团队通过扣子平台，在豆包上发布了学习小帮手应用，帮助家长辅导作业。这个智能体能提供拍照的交互方式，不仅能给出解题思路，而且通过回答进一步的追问，不断进行答疑，真的像一位个性化的辅导老师。

总结一下，一方面大模型技术本身在不断进步，一方面行业里对于应用形态和交互方式的摸索会逐渐成熟，这样大模型产品会逐渐融入更多用户的生活和工作里。

比如，我们看到豆包的用户规模在快速增长。今天豆包已经有超过2600万的月活用户，和800多万个被大家创建出来的智能体。

除了豆包这个产品外，各行各业还有无穷无尽的用户场景，在座的诸位对这些场景肯定比我们有更深的洞察。相信在不久的将来，能看到大模型能力在更多的场景里变成应用，变成更好的用户体验，为更多用户的工作和生活带来便利。

谢谢大家。