不仅能看懂,更能做到。相比前代视觉模型,智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力,能将所见之物直接转化为可执行的行动,尤其适合应对高度复杂视觉推理任务与深度研究。
以往,视觉模型运行流程如同繁琐的传话游戏:图像需先被描述成文字才能被理解和处理,信息损耗在所难免。
GLM-4.6V 从架构层面重塑了这一流程,确立了“图像即参数,结果即上下文”的原生范式。这意味着,截图、文档页面或商品图片可以直接作为指令参数输入;而工具生成的图表、网页截图等视觉结果,又能被它再次“看见”并纳入推理决策,实现从看见到看懂、再到执行的流畅闭环。
这一原生多模态工具调用能力在实际场景中释放出巨大价值:
由此,GLM-4.6V 弥合了“视觉感知”与“可执行动作”之间的断层,为构建真正实用、能执行复杂任务的多模态智能体铺平了道路。
在基础性能方面,GLM-4.6V较前一代模型取得了显著提升,也能媲美更大规模视觉模型。
这个“眼明手快”的多面手已作为第 149 位成员入驻硅基流动 AI 云:API 调用价格较前代直降 50%,仅需输入 1 元/百万 Tokens,输出 3 元/百万 Tokens,并支持 128K 上下文长度。现在即可感受 GLM-4.6V 带来的效率飞跃。
| 欢迎光临 链载Ai (http://www.lianzai.com/) | Powered by Discuz! X3.5 |