硅基流动上线智谱视觉模型 GLM-4.6V

显示全部楼层

不仅能看懂，更能做到。相比前代视觉模型，智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力，能将所见之物直接转化为可执行的行动，尤其适合应对高度复杂视觉推理任务与深度研究。

以往，视觉模型运行流程如同繁琐的传话游戏：图像需先被描述成文字才能被理解和处理，信息损耗在所难免。

GLM-4.6V 从架构层面重塑了这一流程，确立了“图像即参数，结果即上下文”的原生范式。这意味着，截图、文档页面或商品图片可以直接作为指令参数输入；而工具生成的图表、网页截图等视觉结果，又能被它再次“看见”并纳入推理决策，实现从看见到看懂、再到执行的流畅闭环。

这一原生多模态工具调用能力在实际场景中释放出巨大价值：

1. 深度多模态文档理解。它能直接解析长达 128K 上下文的复杂版式与图表，无需中间转换。

2. 前端代码的视觉复现与编辑。它能从截图精准生成代码，并用自然语言指令迭代修改。

3. 交错式图文内容生成。它能主动调用工具检索素材，创作出丰富且依据充分的混合媒体内容。

由此，GLM-4.6V 弥合了“视觉感知”与“可执行动作”之间的断层，为构建真正实用、能执行复杂任务的多模态智能体铺平了道路。

在基础性能方面，GLM-4.6V较前一代模型取得了显著提升，也能媲美更大规模视觉模型。

这个“眼明手快”的多面手已作为第 149 位成员入驻硅基流动 AI 云：API 调用价格较前代直降 50%，仅需输入 1 元/百万 Tokens，输出 3 元/百万 Tokens，并支持 128K 上下文长度。现在即可感受 GLM-4.6V 带来的效率飞跃。