随着大模型任务范围不断扩展,我们注意到,用户需求正从获取建议、查询信息,转向让模型直接执行复杂工作流。这意味着,通用模型必须具备更广泛的能力,超越现有语言生成的范畴。在此背景下,我们正式推出通用 Agent 模型 Seed1.8,它具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求。- ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;">通用 Agent 模型:Seed1.8 集搜索、代码与 GUI Agent 能力于一体,其原生基座视觉能力使它能够“看见”并直接与界面交互。
- ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;">低延迟、高效应答:Seed1.8 支持三种思考模式,能够根据任务的复杂度自动调整处理方式,它还优化了图片编码需要的 token 数量,在无损智能的前提下大幅提升了推理效率。
- ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;">对接真实世界需求:我们对 Seed1.8 进行了严格模拟真实工作流的评估测试,其在需求广泛的信息检索、意图识别、复杂指令遵循等场景表现良好。
ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;">基于我们建立的以现实需求为导向的内部评测体系,结合公开基准,我们对 Seed1.8 进行了全面系统的能力测试,完整结果详见 Model Card。下文将分别介绍 Seed 1.8 在通用 Agent、LLM 和 VLM 关键能力项上的表现。ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);">项目主页(含Model Card): https://seed.bytedance.com/seed1_8 体验入口: 火山引擎官网-大模型-豆包大模型-豆包大模型1.8-立即体验
ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);text-align: center;line-height: 1.75em;margin-top: 0px;">Seed1.8 通用 Agent 能力ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);text-align: center;line-height: 1.75em;margin-bottom: 24px;margin-top: 0px;">在多类真实任务中获得验证ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-align: justify;">在多项基准测试中,Seed1.8 展现了其作为通用 Agent 模型的强劲潜力,尤其在GUIAgent、搜索、行业应用等任务中,取得了优秀的分数。ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-align: justify;">Agent 能力的难点体现在多个层面:Seed1.8 在以上难点中都有所突破。评测结果显示,它具备了业界领先的GUIAgent能力,较Seed1.5-VL进一步提升,并在电脑、网页、移动端三类环境中,均展现出在不同系统和界面中执行多步任务的可靠性。
Seed1.8在搜索任务中表现同样突出,在多组公开 Agent 搜索评测基准中保持业界第一梯队水平,比如在BrowseComp-en基准测试中得分高达67.6,超过 Gemini-3-Pro 等其他顶级模型。 标注 * 的数据引自公开技术报告;标注 1 的数据引自官方全集分数 在 Agentic Coding 相关基准测试中,Seed1.8 展现出了面向真实软件工程场景的稳定能力。这表明 Seed1.8 并非只停留在代码生成层面,而是具备在真实开发环境中持续推进任务的 Agent 编程能力,为复杂工程场景下的应用打下基础。 标注 * 的数据引自公开技术报告 在有突出经济价值的现实应用任务上,Seed1.8 的表现也值得关注。 FinSearchComp 和XpertBench 的测评显示,该模型在处理金融商业相关任务时相对稳定和高效。此外,Seed1.8 在 WorldTravel 多模态应用任务中得分达 47.2,表明它在处理旅行规划、用户需求分析等真实场景需求时具有可靠性。 WorldTravel 相关分数采用五次取最优得分 如下图所示,Seed1.8 为预算有限的一家人制定了游玩柏林的行程,其结合了旅行平台、预订网站和餐厅菜单等多方信息,并利用良好的推理能力和视觉解读能力,快速生成了符合所有约束条件的旅行计划。 在上述案例中,Seed1.8 不仅能根据预算、时间等基本条件做出推荐,还能根据用户的具体偏好(如餐饮口味、住宿环境)精确安排行程。通过智能推理和约束优化,模型自动结合多个维度的信息,生成了完整且符合实际需求的旅行计划,展现了其在复杂决策和个性化定制方面的能力。 LLM 能力评测结果水平接近顶级通用模型在多组公开的大语言模型基准测试中,Seed1.8 保持了稳定且具有竞争力的表现,处于业界第一梯队水平。 在数学、推理和知识理解等核心基础能力维度上,其整体水平接近业界顶级通用模型。 标注 * 的数据引自公开技术报告 在复杂指令遵循相关的基准测试中,Seed1.8 展现出了稳定的执行能力。这类任务通常包含多重约束、反向条件或长链路推理,要求模型在多步执行过程中持续保持对指令目标的准确理解。从结果来看,Seed1.8 在多项复杂指令基准中保持了与业界领先模型接近的表现。 标注 * 的数据引自公开技术报告 在此基础上,Seed1.8 进一步将能力验证扩展至由真实专家定义、具有明确经济价值的应用场景,包括教育辅导、客服问答、信息处理、意图识别、信息抽取以及多步骤复杂工作流等任务类型,验证了模型在真实使用环境中的适用性。 VLM多模态评测结果分数显著提升,表现突出Seed1.8 在多个视觉语言基准测试中表现突出,其在多模态推理任务中超越了前代模型 Seed1.5-VL,在大部分任务中接近目前最先进的 Gemini-3-Pro。 图像理解能力Seed1.8 在图像视觉理解任务中展现出较好的性能。在多模态推理类任务中,Seed1.8在被认为难度极高的视觉推理测试 ZeroBench 中,获得 11.0 的最高得分,相比前代 Seed1.5-VL,其成功解答问题数量大幅增加。 标注 * 的数据引自公开技术报告 在通用视觉问答任务中,Seed1.8 在 VLMsAreBiased 基准测试中取得了 62.0 的分数,大幅领先其他模型。 标注 * 的数据引自公开技术报告 Seed1.8 在 2D 以及 3D 空间理解的多个基准测试中表现优秀。其在处理 3D 空间理解和复杂任务时,特别是在动态和复杂数据集上,表现出较好的适应性和推理能力。 标注 * 的数据引自公开技术报告 视频理解能力Seed1.8 在视频理解领域表现出色,尤其在视频推理、运动与感知、长视频理解等任务中,展现出了较强的适应性。 在动态场景和实时感知任务中,Seed1.8 名列前茅,展现了模型在复杂感知任务中的能力,尤其是在处理实时信息时的高效性。 标注 * 的数据引自公开技术报告 Seed1.8 在长视频理解任务中表现突出,比如在 VideoMME 中取得了 87.8 的较高分数。长视频理解通常涉及复杂的时间跨度、情境变换和长时间的上下文多跳推理,Seed1.8 加入了“VideoCut”视频工具调用能力,通过对部分片段慢放回看,可实现更加精准的长视频推理与高帧率运动感知。 标注 * 的数据引自公开技术报告;标注 ‡ 的数据在评估时纳入字幕信息 在视频处理中,Seed1.8 还实现了 Token Efficiency 的显著提升,这不仅带来了更强的理解能力,还将为用户提供更低延迟的实时视频处理体验。 在多个长视频 Benchmark 上,即便采用更低的 Max Video Token 配置,Seed1.8 仍然可取得比 Seed1.5-VL 更好的表现 更进一步,Seed1.8 通过引入多种 Thinking Modes,嵌入了动态调节思考深度的能力。用户可以根据任务的不同需求,灵活调整模型的推理深度和计算负载。 Seed1.8 与其他模型在不同多模态推理 Benchmark 下的推理成本与精度对比
未来展望在 Seed1.8 的基础上,我们将面向全能智能体模型持续迭代,以解决真实世界复杂任务中的挑战。未来,我们将在以下方向上持续发力: 继续 Scaling 并提升性能,通过更强的算力支持,进一步提升模型在预训练和后训练环节的表现,以应对日益复杂的任务需求。 强化长期任务执行能力,推进长时间上下文处理和 Agent 记忆的优化,使模型能更加高效地处理长期任务和跨步骤的推理。 不断在真实场景中打磨模型,继续扩充与真实工作生活场景相关的训练数据,确保 Seed 模型能够真正适应多变的实际需求。 拓展智能边界,我们将进一步提升 Seed 模型在人类智能边界问题上的自主探索能力,为更高层次的 Agent 能力奠定基础。
同时,我们认为,建立以真实需求为导向的评测体系,对提升Agent模型的稳定性、泛化性和可用性有较大帮助,部分为 Seed1.8 研发构建的评测数据集已开源或将在未来开源,希望推动社区共同进步 |