返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

实测豆包1.8后,我终于明白字节为什么要推豆包手机了。

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 17:13 |阅读模式 打印 上一主题 下一主题


好久没有因为一款国产模型,产生这种明显的期待感了。

这次,是豆包1.8。

在这个大家都忙着做年终总结的十二月,我本来以为AI圈能消停一会儿。

没想到,字节不讲武德,又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原动力大会刷屏了..

从节奏上看,字节这几年在AI这条路上,一直走得非常稳。产品和模型并行发展,从文本到多模态,从对话到Agent,再从云端走到端侧。

这次原动力大会,又是一次阶段性成果的集中展示。

其中,豆包大模型1.8,作为字节新一代主力模型,正式接棒。

注意,是主力模型。

是接下来一段时间里,字节在企业Agent、应用层、工具链上真正要用、要打的那个模型。

先看看跑分:在教育、客服、金融、法律、审核等多个场景测评中处于领先水平

Agent能力和多模态理解能力非常强,直逼Gemini3 Pro

看得出来,这次不是单项能力的突破,明显冲着一个目标去的:复杂Agent,尤其是企业级Agent。

比如,我可以让它全自动帮我获取apikey,并配置到开源Agent平台-Fastgpt上了

双手离开键盘~(顺便听一听我最近一直单曲循环的歌)

说实话,第一眼看到豆包1.8的能力,我是有点惊喜的。

这一看就是能干实事的。因为下面这三个点能同时满足,这在国产模型里,是独一档了。

>/ 第一:Agent能力往前走了一大步。

多工具调用能力增强,多轮指令遵循的稳定性大幅提升,长文指令不再容易跑偏,执行规划能力更强。

尤其是OS Agent:支持Agent去屏幕上操作,它能帮我干很多事儿。

在很多真实业务里,最后一公里从来不是推理,而是操作。

在屏幕上完成一些相对复杂的点点点的任务,这些事情对人来说可能很简单,但对模型来说一直是难点。

豆包1.8把这件事当成重点去做,本身就是一个非常务实的信号。也很有可能就是冲着豆包手机去的。

>/ 第二:256K的超长上下文,是真的好用。

目前国产的主力大模型,大部分都是200K的上下文长度,而豆包1.8支持了256K~

但如果只是能读得多,管理不好也不行,毕竟上给模型的上下文不是越多越好,而是越精准越好。

豆包1.8的一个关键点在于,它支持通过原生API做上下文管理,什么意思?

你不再需要每次把所有历史上下文一股脑塞进去,而是可以像整理文件夹一样,按需清理、按需保留。

这在企业级 Agent 场景里,价值非常大。

一方面,成本直线下降。另一方面,模型的注意力更集中,执行稳定性也会更好。

>/ 第三:多模态能力这次是真的实打实升级了。

视觉理解精度提升,图片token消耗更少,视频理解能力再提升。

单次视频理解从640帧提升到1280帧,在1秒1帧的情况下,可以完整理解20分钟的视频内容。

如果再配合火山方舟应用实验室的Video Cup Tool,可以先低帧率扫全片,再高帧率聚焦关键片段。

这个逻辑,非常像一个聪明人快速学习新知识的方法。先快进扫一遍,再倒回来看重点。


这三点放在一起,我觉得豆包1.8非常适合搭建复杂Agent,跑真实流程。

之前,其他模型不太能完成的复杂任务,现在好像可以试着交给它了。

于是我快速做了几个测试(难度越来越高),想看看它在复杂、多步骤、容易出错的真实任务里,表现到底稳不稳。

因为Agent最怕的不是不行,而是半行不行的。。。要么跑着跑着少一步,要么顺序乱,要不就死循环,或者慢慢跑偏。

目前火山引擎已经支持了豆包1.8的API

为了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用

并集成了我认为最好用的浏览器自动化MCP-Server:playwright mcp

话不多说,我们开始!


多平台电商筛选比价 + 跨平台加购

先用这个案例来小试牛刀,如果这个任务跑不出来,后面的也不用看了。

Prompt:全程使用playwright MCP工具,先在淘宝上寻找一款半入耳式蓝牙耳机,价格区间在500-1000元之间。找到满足以上条件并且销量第一的那款耳机(可能有百亿补贴,导致显示的价格比500低,也可能是淘宝的bug,反正不管,固定价格区间后选定销量第一就行了),然后在唯品会和京东进行这款耳机的比价,找到价格最便宜的同款耳机,添加到我的购物车中。

这个任务里,难点不在于找耳机。

难在三件事:

第一,要在平台筛选、过滤,找到符合要求的正确的商品。

第二,要能跨平台识别同款商品。

第三,最后一步需要实际操作,加购。

但是某宝有点der啊,为什么选择了价格区间在500-1000,还有这么多500元以下的?

这个现象一度让豆包1.8怀疑自己😂

豆包1.8内心:啊???我不是固定了500-1000价格吗,为什么还有500以下的,不对,我再看看。

于是我加了一句提示:

可能有百亿补贴,导致显示的价格比500低,也可能是淘宝的bug,反正不管,固定价 格区间后选定销量第一就行了

执行过程见视频:

从执行过程来看,豆包1.8在几个关键节点上表现都很稳。

它先打开了某宝,在搜索栏搜索半入耳式蓝牙耳机,并筛选了500-1000的价格区间,以销量排序,进入商品详情页确认了商品名称。

然后打开某品会,搜索同款商品,对比价格,最后打开某东,发现某东的价格是最便宜的,并加入了购物车。

条件锁定后,它不会反复横跳。在不同平台页面结构差异很大的情况下,正确定位了商品信息。在加购这一步,没有出现误点或卡死。

整个过程像是一个熟练用户在操作,每一步都比较精准。

但就是还是Agent的老问题,整个过程有点慢,看得着急(急性子估计用不了),好在最后顺利完成了。

当然这里面有模型推理思考的时间,还有就是playwright MCP虽然已经是目前非常好用的浏览器自动化工具了,但是每次打开新页面,模型都要通过playwright拿到页面快照,然后分析定位元素,最后执行操作,要调用多个工具协同完成,这个过程也比较耗时。


B站「影视飓风」互动任务

既然第一个任务成功了,那接下来难度升级

正好今天火山的大会Tim也去了,我们来给他的频道增加点互动~

这个任务需要打开B站,进入影视飓风主页,从投稿列表里筛选最近发布且播放量超过500万的3个视频,保存链接。然后逐个访问,根据获取到的信息,分别发出三条贴合内容的评论。

Prompt:请帮我登录B站,去“影视飓风”的个人主页执行一个互动任务。为了防止页面刷新导致迷路,请你严格按照先找齐链接,再逐个访问的顺序来操作:

第一步,筛选视频。请进入他的“投稿”列表,保持默认的“最新发布”排序。请耐心地从上往下滚动浏览,仔细查看每一个视频的播放数据,直到找出最近发布的、且播放量明确超过500万的3个视频。找到后,请先把这3个视频的链接保存下来。

第二步,发送评论。请依次直接访问这3个链接。每进入一个视频,先花点时间读取一下视频简介和底下的高赞评论,了解视频的核心看点。然后,基于这些信息,分别写一条言之有物、符合科技区粉丝调性的评论并发送。注意,三条评论的内容要完全不同,必须贴合各自的视频主题。注意:评论的时候你一定要输入自己思考后的内容,并点击发布,不要被评论输入框中自带的文字误导了

执行过程如下:

这个任务页面多,信息杂,需要判断、总结,还要生成贴合视频的评论内容。

豆包1.8的表现,像一个知道自己在干嘛的人。

它在主页正确的筛选了最新的三条超500万播放量视频,并把链接收集齐,再逐个访问。

在评论生成上,没有套模板,会根据视频主题调整语气和内容,像一个老粉一样(虽然我是新粉 哈哈哈)。


创建火山API Key + Fastgpt配置

这个任务,我刻意选了一个容易翻车的场景。偏向开发者日常。

我几个月前用某模型来测试过,一直是死循环,硬是选不中对的按钮。

Prompt:进入火山引擎,控制台,找到火山方舟并进入,在apikey那里,新建一个apikey并复制。打开fastgpt,登录进去,根据 fastgpt操作截图.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用户名:root,密码:1234

下面是我给豆包1.8的fastgpt的操作截图

这个任务,几乎集齐了Agent所有痛点,非常考验模型的综合理解能力。

难点在于,模型需要识别图片上的操作指引,而且步骤非常细,任何一步错了,后面都走不通。

包括页面跳转、字段识别、复制粘贴、表单提交。

跑下来,一个明显的感受是,豆包1.8对页面结构的理解很扎实,视觉能力也很强。

不会因为页面稍微复杂,就迷路。

而且在长指令下,步骤执行顺序稳定,没有出现跳步或重复。

这些对于Agent应用,非常关键。


如果把视角再拉远一点,你会发现,豆包1.8的很多能力,其实已经在为另一个方向铺路。

那就是端侧Agent。

最近备受争议的豆包手机,我觉得就是一个非常直观的尝试。

系统级AI助手这件事,跨App自动化,系统级权限,模拟操作。

这些能力,在技术上是很酷的,但在现实生态里,必然会遇到阻力。

这不是模型的问题,而是整个行业的博弈。

豆包手机的意义,也不是卖了多少台,而是验证了一件事:

当模型的Agent能力足够强,系统级AI助手这条路,是必然走得通的。

只是,怎么走,走多快,需要时间,也需要一些妥协。

豆包1.8的出现,无疑让这条路更好走了

最后,如果你关心的是,模型能不能真正帮你把事情做好,而不是陪你聊天。

那这一代豆包,确实已经走到一个很关键的位置了。

接下来,就看大家拿它,能做出什么样的Agent了~

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ