2025年9月30日,智谱AI正式发布了其新一代旗舰大模型GLM-4.6。此次发布标志着该模型系列迎来了一次重大升级。相较于前代产品GLM-4.5,GLM-4.6在多个关键维度实现了显著提升。它将上下文窗口从128K令牌扩展至200K,使其能够处理更为复杂和长程的任务。在代码能力、逻辑推理、智能体(Agent)应用以及文本生成质量方面,新模型也展现出更优越的性能。官方评测数据显示,GLM-4.6在多项国际公开基准测试中的表现均优于GLM-4.5,并在实际应用中展现出与国际先进模型相竞争的实力。此次发布旨在为开发者与用户提供一个更强大、更高效的人工智能基础模型。ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;text-align: justify;">核心亮点- -上下文窗口从128K大幅提升至200K令牌,能够处理和理解更庞大的文档与更复杂的任务链。
- -在多项代码基准测试中得分更高,尤其在前端页面生成方面表现突出,能制作视觉效果更佳的作品。-在实际编程体验中,其能力已应用于Claude Code、Cline等多个产品。
- -逻辑推理能力显著增强,并能在推理过程中无缝调用外部工具,解决复杂问题的能力更强。
- -在工具使用和联网搜索等智能体应用场景下表现更为强大,能更高效地集成到各类智能体框架中。
- -文本生成更符合人类的风格与可读性偏好,在角色扮演场景下的表现也更加自然生动。
- -在实际任务中,完成任务所需的令牌数比GLM-4.5减少了约15%,在能力提升的同时实现了更高的效率。
- -在模拟真实工作环境的“CC-Bench”评估中,其表现已接近国际顶尖模型Claude Sonnet 4,并显著优于其他开源模型。所有评估数据已公开。
ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;text-align: justify;">模型评测
1.综合评测在涵盖数学、代码、网页交互、专业学科等领域的8大权威基准(如AIME 2025、SWE-Bench等)的全面检验中,GLM-4.6展现出卓越的通用能力。其综合性能在部分榜单上已达到与国际顶尖模型Claude Sonnet 4/4.5并驾齐驱的水准,并稳居国产模型首位,持续领跑行业。2.真实编程评测在真实场景的实践价值超越榜单排名的共识下,研究团队对GLM-4.5的CC-Bench评估体系进行了升级,引入更具挑战性的多维度任务。在隔离的Docker容器环境中,人类评估员与模型协同完成涵盖前端开发、工具构建、数据分析、测试验证及算法设计的复杂多轮任务。评估数据表明,GLM-4.6相较前代模型实现显著进步,与Claude Sonnet 4达到近乎持平的表现(胜率48.6%),并明显优于其他开源基线模型。从token效率维度观察,GLM-4.6完成任务所需的token数量较GLM-4.5减少约15%,展现出能力与效率的同步提升
|