|
不仅能看懂,更能做到。相比前代视觉模型,智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力,能将所见之物直接转化为可执行的行动,尤其适合应对高度复杂视觉推理任务与深度研究。
以往,视觉模型运行流程如同繁琐的传话游戏:图像需先被描述成文字才能被理解和处理,信息损耗在所难免。
GLM-4.6V 从架构层面重塑了这一流程,确立了“图像即参数,结果即上下文”的原生范式。这意味着,截图、文档页面或商品图片可以直接作为指令参数输入;而工具生成的图表、网页截图等视觉结果,又能被它再次“看见”并纳入推理决策,实现从看见到看懂、再到执行的流畅闭环。
这一原生多模态工具调用能力在实际场景中释放出巨大价值:
1. 深度多模态文档理解。它能直接解析长达 128K 上下文的复杂版式与图表,无需中间转换。2. 前端代码的视觉复现与编辑。它能从截图精准生成代码,并用自然语言指令迭代修改。3. 交错式图文内容生成。它能主动调用工具检索素材,创作出丰富且依据充分的混合媒体内容。
由此,GLM-4.6V 弥合了“视觉感知”与“可执行动作”之间的断层,为构建真正实用、能执行复杂任务的多模态智能体铺平了道路。
在基础性能方面,GLM-4.6V较前一代模型取得了显著提升,也能媲美更大规模视觉模型。
这个“眼明手快”的多面手已作为第 149 位成员入驻硅基流动 AI 云:API 调用价格较前代直降 50%,仅需输入 1 元/百万 Tokens,输出 3 元/百万 Tokens,并支持 128K 上下文长度。现在即可感受 GLM-4.6V 带来的效率飞跃。 |