比R1快8倍，智谱开源GLM-Z1系列，实测 Agentic AI 也能极速深度推理！

显示全部楼层

太卷了，智谱一口气开源6个模型，即新一代开源模型 GLM-4-32B-0414 系列，包含基座、推理、沉思模型，MIT License，不限制商用。

不想自己部署的小伙伴可以直接登录全新站点https://chat.z.ai/试用。

此次开源最大的亮点是具有深度思考能力的推理模型 GLM-Z1-32B，主打一个“为快不破”：国内迎来最快的推理模型。

为满足不同场景需求，上线到智谱MaaS开放平台bigmodel.cn的推理模型分为三个版本：

GLM-Z1-AirX（极速版）：国内最快推理模型，推理速度高达200 tokens/s，8倍于常规速度；
GLM-Z1-Air（高性价比版）：价格仅为DeepSeek-R1的1/30，适合高频调用场景；
GLM-Z1-Flash（免费版）：支持免费使用，进一步降低模型使用门槛。

200 tokens/s极速深度推理，给推理模型的落地场景带来了无限可能，PaperAgent就最经典的Agentic AI应用场景：Agentic RAG/MCP应用(含代码解析)，对GLM-Z1-AirX进行了第一手实测。

GLM-Z1-AirX加持的Agentic RAG

Agentic RAG过程应用于问答的一个代表性示例，主要由2大流程组成：

离线流程，文档被分割成块，编码成向量，并存储在向量数据库（ES/Milvus）中。
线上流程

Agentic 路由，根据查询类型，Agent从多种检索选项中检索相关数据，

生成，将原始问题和检索到的内容送入大模型（GLM-Z1-AirX）中，生成最终答案。

Agentic RAG问答流程（GLM-Z1-AirX）

总结类型Query: A股行情经历了怎样的变化

GLM-Z1-AirX仅在【12.8s】就给出了长达2246字的答案，并且答案也比较丰富，全面。

这个速度直接让你的RAG系统直接赢在了thinking线上，可能别人还在thinking，你已经给出答案了。

这里以DeepSeek-R1作为对比，thinking阶段就花费20s，最终答案1764字，总耗时63.3s

GLM-Z1-AirX流式使用指南

pip install --upgrade zhipuai
fromzhipuaiimportZhipuAIclient = ZhipuAI(api_key="")# 填写您自己的APIKeyresponse = client.chat.completions.create(  model="GLM-Z1-AirX", # 填写需要调用的模型编码  messages=[    {"role":"user","content":"你好"}  ],  stream=True,)forchunkinresponse: content = chunk.choices[0].delta.contentprint(content)

GLM-Z1-AirX加持的MCP应用

选这个场景测试，是因为不少小伙伴对MCP与Function Call的关系有困惑，比如“mcp 和 function call可以共存吗？”，今天以GLM-Z1-AirX作为基础模型对剖析MCP应用的工作流程：

MCP 主机—— LLM 应用程序（例如 Cursor），管理连接
MCP 客户端—— 与 MCP 服务器保持一对一连接
MCP 服务器—— 为 LLM 提供上下文、工具和能力

在MCPClient.py，首先利用list_tools让MCP Server上所有可用的工具信息

将第一步拼接的工具信息（名称、描述、参数）传给大模型（GLM-Z1-AirX），这里可以用支持Funciton Call的大模型，也可以采用ReAct的方式。

GLM-Z1-AirX会选择使用哪个工具，之后通过call_tool让MCP Server执行工具并返回结果

工具执行的结果存入消息历史，一起送入GLM-Z1-AirX，给出解析的答案

最后，可以看一个GLM-Z1-AirX以ReAct方式调用工具的示例，3.6s完成，非常快速！

https://hf-mirror.com/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2ehttps://github.com/modelcontextprotocol/python-sdk