返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

硅基流动上线智谱视觉模型 GLM-4.6V

[复制链接]
链载Ai 显示全部楼层 发表于 前天 14:03 |阅读模式 打印 上一主题 下一主题

不仅能看懂,更能做到。相比前代视觉模型,智谱最新开源的 106B 参数规模 GLM-4.6V 拥有“动手”能力,能将所见之物直接转化为可执行的行动,尤其适合应对高度复杂视觉推理任务与深度研究。


Image


以往,视觉模型运行流程如同繁琐的传话游戏:图像需先被描述成文字才能被理解和处理,信息损耗在所难免。


GLM-4.6V 从架构层面重塑了这一流程,确立了“图像即参数,结果即上下文”的原生范式。这意味着,截图、文档页面或商品图片可以直接作为指令参数输入;而工具生成的图表、网页截图等视觉结果,又能被它再次“看见”并纳入推理决策,实现从看见到看懂、再到执行的流畅闭环。


这一原生多模态工具调用能力在实际场景中释放出巨大价值:


1. 深度多模态文档理解。它能直接解析长达 128K 上下文的复杂版式与图表,无需中间转换。
2. 前端代码的视觉复现与编辑。它能从截图精准生成代码,并用自然语言指令迭代修改。
3. 交错式图文内容生成。它能主动调用工具检索素材,创作出丰富且依据充分的混合媒体内容。


由此,GLM-4.6V 弥合了“视觉感知”与“可执行动作”之间的断层,为构建真正实用、能执行复杂任务的多模态智能体铺平了道路。


在基础性能方面,GLM-4.6V较前一代模型取得了显著提升,也能媲美更大规模视觉模型。


Image


这个“眼明手快”的多面手已作为第 149 位成员入驻硅基流动 AI 云:API 调用价格较前代直降 50%,仅需输入 1 元/百万 Tokens,输出 3 元/百万 Tokens,并支持 128K 上下文长度。现在即可感受 GLM-4.6V 带来的效率飞跃。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ