实测豆包1.8后，我终于明白字节为什么要推豆包手机了。

显示全部楼层

好久没有因为一款国产模型，产生这种明显的期待感了。

这次，是豆包1.8。

在这个大家都忙着做年终总结的十二月，我本来以为AI圈能消停一会儿。

没想到，字节不讲武德，又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原动力大会刷屏了..

从节奏上看，字节这几年在AI这条路上，一直走得非常稳。产品和模型并行发展，从文本到多模态，从对话到Agent，再从云端走到端侧。

这次原动力大会，又是一次阶段性成果的集中展示。

其中，豆包大模型1.8，作为字节新一代主力模型，正式接棒。

注意，是主力模型。

是接下来一段时间里，字节在企业Agent、应用层、工具链上真正要用、要打的那个模型。

先看看跑分：在教育、客服、金融、法律、审核等多个场景测评中处于领先水平

Agent能力和多模态理解能力非常强，直逼Gemini3 Pro

看得出来，这次不是单项能力的突破，明显冲着一个目标去的：复杂Agent，尤其是企业级Agent。

比如，我可以让它全自动帮我获取apikey，并配置到开源Agent平台-Fastgpt上了

双手离开键盘～（顺便听一听我最近一直单曲循环的歌）

说实话，第一眼看到豆包1.8的能力，我是有点惊喜的。

这一看就是能干实事的。因为下面这三个点能同时满足，这在国产模型里，是独一档了。

>/ 第一：Agent能力往前走了一大步。

多工具调用能力增强，多轮指令遵循的稳定性大幅提升，长文指令不再容易跑偏，执行规划能力更强。

尤其是OS Agent：支持Agent去屏幕上操作，它能帮我干很多事儿。

在很多真实业务里，最后一公里从来不是推理，而是操作。

在屏幕上完成一些相对复杂的点点点的任务，这些事情对人来说可能很简单，但对模型来说一直是难点。

豆包1.8把这件事当成重点去做，本身就是一个非常务实的信号。也很有可能就是冲着豆包手机去的。

>/ 第二：256K的超长上下文，是真的好用。

目前国产的主力大模型，大部分都是200K的上下文长度，而豆包1.8支持了256K～

但如果只是能读得多，管理不好也不行，毕竟上给模型的上下文不是越多越好，而是越精准越好。

豆包1.8的一个关键点在于，它支持通过原生API做上下文管理，什么意思？

你不再需要每次把所有历史上下文一股脑塞进去，而是可以像整理文件夹一样，按需清理、按需保留。

这在企业级 Agent 场景里，价值非常大。

一方面，成本直线下降。另一方面，模型的注意力更集中，执行稳定性也会更好。

>/ 第三：多模态能力这次是真的实打实升级了。

视觉理解精度提升，图片token消耗更少，视频理解能力再提升。

单次视频理解从640帧提升到1280帧，在1秒1帧的情况下，可以完整理解20分钟的视频内容。

如果再配合火山方舟应用实验室的Video Cup Tool，可以先低帧率扫全片，再高帧率聚焦关键片段。

这个逻辑，非常像一个聪明人快速学习新知识的方法。先快进扫一遍，再倒回来看重点。

这三点放在一起，我觉得豆包1.8非常适合搭建复杂Agent，跑真实流程。

之前，其他模型不太能完成的复杂任务，现在好像可以试着交给它了。

于是我快速做了几个测试（难度越来越高），想看看它在复杂、多步骤、容易出错的真实任务里，表现到底稳不稳。

因为Agent最怕的不是不行，而是半行不行的。。。要么跑着跑着少一步，要么顺序乱，要不就死循环，或者慢慢跑偏。

目前火山引擎已经支持了豆包1.8的API

为了方便快速用豆包1.8搭建Agent，我把豆包1.8接入了Trae使用

并集成了我认为最好用的浏览器自动化MCP-Server：playwright mcp

话不多说，我们开始！

多平台电商筛选比价 + 跨平台加购

先用这个案例来小试牛刀，如果这个任务跑不出来，后面的也不用看了。

Prompt：全程使用playwright MCP工具，先在淘宝上寻找一款半入耳式蓝牙耳机，价格区间在500-1000元之间。找到满足以上条件并且销量第一的那款耳机(可能有百亿补贴，导致显示的价格比500低，也可能是淘宝的bug，反正不管，固定价格区间后选定销量第一就行了)，然后在唯品会和京东进行这款耳机的比价，找到价格最便宜的同款耳机，添加到我的购物车中。

这个任务里，难点不在于找耳机。

难在三件事：

第一，要在平台筛选、过滤，找到符合要求的正确的商品。

第二，要能跨平台识别同款商品。

第三，最后一步需要实际操作，加购。

但是某宝有点der啊，为什么选择了价格区间在500-1000，还有这么多500元以下的？

这个现象一度让豆包1.8怀疑自己😂

豆包1.8内心：啊？？？我不是固定了500-1000价格吗，为什么还有500以下的，不对，我再看看。

于是我加了一句提示：

可能有百亿补贴，导致显示的价格比500低，也可能是淘宝的bug，反正不管，固定价格区间后选定销量第一就行了

执行过程见视频：

从执行过程来看，豆包1.8在几个关键节点上表现都很稳。

它先打开了某宝，在搜索栏搜索半入耳式蓝牙耳机，并筛选了500-1000的价格区间，以销量排序，进入商品详情页确认了商品名称。

然后打开某品会，搜索同款商品，对比价格，最后打开某东，发现某东的价格是最便宜的，并加入了购物车。

条件锁定后，它不会反复横跳。在不同平台页面结构差异很大的情况下，正确定位了商品信息。在加购这一步，没有出现误点或卡死。

整个过程像是一个熟练用户在操作，每一步都比较精准。

但就是还是Agent的老问题，整个过程有点慢，看得着急（急性子估计用不了），好在最后顺利完成了。

当然这里面有模型推理思考的时间，还有就是playwright MCP虽然已经是目前非常好用的浏览器自动化工具了，但是每次打开新页面，模型都要通过playwright拿到页面快照，然后分析定位元素，最后执行操作，要调用多个工具协同完成，这个过程也比较耗时。

B站「影视飓风」互动任务

既然第一个任务成功了，那接下来难度升级

正好今天火山的大会Tim也去了，我们来给他的频道增加点互动～

这个任务需要打开B站，进入影视飓风主页，从投稿列表里筛选最近发布且播放量超过500万的3个视频，保存链接。然后逐个访问，根据获取到的信息，分别发出三条贴合内容的评论。

Prompt：请帮我登录B站，去“影视飓风”的个人主页执行一个互动任务。为了防止页面刷新导致迷路，请你严格按照先找齐链接，再逐个访问的顺序来操作：

第一步，筛选视频。请进入他的“投稿”列表，保持默认的“最新发布”排序。请耐心地从上往下滚动浏览，仔细查看每一个视频的播放数据，直到找出最近发布的、且播放量明确超过500万的3个视频。找到后，请先把这3个视频的链接保存下来。

第二步，发送评论。请依次直接访问这3个链接。每进入一个视频，先花点时间读取一下视频简介和底下的高赞评论，了解视频的核心看点。然后，基于这些信息，分别写一条言之有物、符合科技区粉丝调性的评论并发送。注意，三条评论的内容要完全不同，必须贴合各自的视频主题。注意：评论的时候你一定要输入自己思考后的内容，并点击发布，不要被评论输入框中自带的文字误导了

执行过程如下：

这个任务页面多，信息杂，需要判断、总结，还要生成贴合视频的评论内容。

豆包1.8的表现，像一个知道自己在干嘛的人。

它在主页正确的筛选了最新的三条超500万播放量视频，并把链接收集齐，再逐个访问。

在评论生成上，没有套模板，会根据视频主题调整语气和内容，像一个老粉一样（虽然我是新粉哈哈哈）。

创建火山API Key + Fastgpt配置

这个任务，我刻意选了一个容易翻车的场景。偏向开发者日常。

我几个月前用某模型来测试过，一直是死循环，硬是选不中对的按钮。

Prompt：进入火山引擎，控制台，找到火山方舟并进入，在apikey那里，新建一个apikey并复制。打开fastgpt，登录进去，根据 fastgpt操作截图.png 新增模型，除了apikey，其他都填test即可。火山引擎地址： https://www.volcengine.com/，fastgpt地址：http://localhost:3000/ 用户名：root，密码：1234

下面是我给豆包1.8的fastgpt的操作截图

这个任务，几乎集齐了Agent所有痛点，非常考验模型的综合理解能力。

难点在于，模型需要识别图片上的操作指引，而且步骤非常细，任何一步错了，后面都走不通。

包括页面跳转、字段识别、复制粘贴、表单提交。

跑下来，一个明显的感受是，豆包1.8对页面结构的理解很扎实，视觉能力也很强。

不会因为页面稍微复杂，就迷路。

而且在长指令下，步骤执行顺序稳定，没有出现跳步或重复。

这些对于Agent应用，非常关键。

如果把视角再拉远一点，你会发现，豆包1.8的很多能力，其实已经在为另一个方向铺路。

那就是端侧Agent。

最近备受争议的豆包手机，我觉得就是一个非常直观的尝试。

系统级AI助手这件事，跨App自动化，系统级权限，模拟操作。

这些能力，在技术上是很酷的，但在现实生态里，必然会遇到阻力。

这不是模型的问题，而是整个行业的博弈。

豆包手机的意义，也不是卖了多少台，而是验证了一件事：

当模型的Agent能力足够强，系统级AI助手这条路，是必然走得通的。

只是，怎么走，走多快，需要时间，也需要一些妥协。

豆包1.8的出现，无疑让这条路更好走了

最后，如果你关心的是，模型能不能真正帮你把事情做好，而不是陪你聊天。

那这一代豆包，确实已经走到一个很关键的位置了。

接下来，就看大家拿它，能做出什么样的Agent了～