返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

比R1快8倍,智谱开源GLM-Z1系列,实测 Agentic AI 也能极速深度推理!

[复制链接]
链载Ai 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
太卷了,智谱一口气开源6个模型,即新一代开源模型 GLM-4-32B-0414 系列,包含基座、推理、沉思模型,MIT License,不限制商用。
不想自己部署的小伙伴可以直接登录全新站点https://chat.z.ai/试用。
此次开源最大的亮点是具有深度思考能力的推理模型 GLM-Z1-32B,主打一个“为快不破”:国内迎来最快的推理模型。
为满足不同场景需求,上线到智谱MaaS开放平台bigmodel.cn的推理模型分为三个版本:
  • GLM-Z1-AirX(极速版):国内最快推理模型,推理速度高达200 tokens/s,8倍于常规速度;

  • GLM-Z1-Air(高性价比版):价格仅为DeepSeek-R1的1/30,适合高频调用场景;

  • GLM-Z1-Flash(免费版):支持免费使用,进一步降低模型使用门槛。

200 tokens/s极速深度推理,给推理模型的落地场景带来了无限可能,PaperAgent就最经典的Agentic AI应用场景:Agentic RAG/MCP应用(含代码解析),对GLM-Z1-AirX进行了第一手实测。
GLM-Z1-AirX加持的Agentic RAG
Agentic RAG过程应用于问答的一个代表性示例,主要由2大流程组成:
  • 离线流程,文档被分割成块,编码成向量,并存储在向量数据库(ES/Milvus)中。
  • 线上流程
    • Agentic 路由,根据查询类型,Agent从多种检索选项中检索相关数据,
    • 生成,将原始问题和检索到的内容送入大模型(GLM-Z1-AirX)中,生成最终答案。

Agentic RAG问答流程(GLM-Z1-AirX)

总结类型Query: A股行情经历了怎样的变化
GLM-Z1-AirX仅在【12.8s】就给出了长达2246字的答案,并且答案也比较丰富,全面。
这个速度直接让你的RAG系统直接赢在了thinking线上,可能别人还在thinking,你已经给出答案了。
这里以DeepSeek-R1作为对比,thinking阶段就花费20s,最终答案1764字,总耗时63.3s
GLM-Z1-AirX流式使用指南
pip install --upgrade zhipuai
fromzhipuaiimportZhipuAIclient = ZhipuAI(api_key="")# 填写您自己的APIKeyresponse = client.chat.completions.create( model="GLM-Z1-AirX", # 填写需要调用的模型编码 messages=[ {"role":"user","content":"你好"} ], stream=True,)forchunkinresponse: content = chunk.choices[0].delta.contentprint(content)
GLM-Z1-AirX加持的MCP应用
选这个场景测试,是因为不少小伙伴对MCP与Function Call的关系有困惑,比如“mcp 和 function call可以共存吗?”,今天以GLM-Z1-AirX作为基础模型对剖析MCP应用的工作流程:
    ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: left;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;border-width: 0px;border-style: solid;border-color: hsl(var(--border));list-style: circle;line-height: 1.75;color: rgb(63, 63, 63);" class="list-paddingleft-1">
  • MCP 主机—— LLM 应用程序(例如 Cursor),管理连接
  • MCP 客户端—— 与 MCP 服务器保持一对一连接
  • MCP 服务器—— 为 LLM 提供上下文、工具和能力
  • 在MCPClient.py,首先利用list_tools让MCP Server上所有可用的工具信息
  • 将第一步拼接的工具信息(名称、描述、参数)传给大模型(GLM-Z1-AirX),这里可以用支持Funciton Call的大模型,也可以采用ReAct的方式。
  • GLM-Z1-AirX会选择使用哪个工具,之后通过call_tool让MCP Server执行工具并返回结果
  • 工具执行的结果存入消息历史,一起送入GLM-Z1-AirX,给出解析的答案
  • 最后,可以看一个GLM-Z1-AirX以ReAct方式调用工具的示例,3.6s完成,非常快速!
https://hf-mirror.com/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2ehttps://github.com/modelcontextprotocol/python-sdk

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ