|
昨晚,智谱 AI 突然发布了 GLM-4.5,号称"全球第二、国产第一、开源第一"。 看到这个宣传,我内心是激动的——又一个国内的黑马模型要出现了? 于是我第一时间测试,想看看这个"国产之光"到底有多强。 结果...让我有点失望。 跑分很美好,现实很骨感先说说官方的跑分数据,确实很亮眼: 看起来很厉害对吧?355B 参数,32B 激活参数,MoE 架构,128K 上下文... 但是,跑分和实际使用完全是两回事。 PPT 生成:从惊艳到平庸智谱之前的实验模型做 PPT 确实很强,我对 4.5 抱有很高期待。 结果第一个测试: 嗯,结果怎么说呢?我个人认为比原来平庸了。 生成的 PPT 千篇一律都是"图左文右"的布局,毫无创意可言。 而且在测试过程中频繁遇到限速错误,不知道是访问人数过多导致的模型降级,还是服务器扛不住压力。 对比一下之前模型生成的效果: 感觉差距有点明显。 Claude Code 集成:配置简单,体验糟糕既然官方说 GLM-4.5 在编程方面表现优秀,我决定在 Claude Code 中测试一下。 配置过程确实很简单,首先去控制台申请 API Key: https://z.ai/manage-apikey/apikey-list 然后设置以下的环境变量: export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic
export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}
输入 claude 指令进入,确保环境变量被加载到了: 配置完成后,我使用Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)这篇文章的同款提示词来实测一下: @ai-daily-generator
帮我换一个数据源:https://news.aibase.com/zh/news
你可以用playwright去看看它的页面结构和翻页接口
编程实测:智商堪忧的表现刚开始运行的时候,我还觉得挺好的,一切正常,包括调用 playwright MCP 都比较好: 然而,后面的处理越来越不对劲,我感觉在浪费 token 了。 第一个问题:变量未替换的低级错误 这种基础的变量替换都能出错,让我对模型的代码理解能力产生了质疑。 第二个问题:API 调试来回折腾 第三个问题:测试环节反复纠结 我真的感觉到它来回折腾,浪费大量 token。 第四个问题:虚假的"修复完成" 超时几次后,它直接告诉我修复完了,但实际上问题根本没解决。 然后,我让它自己发现问题,它折腾了好久,最后告诉我,有可能是调试代码导致的。 我:??? 最终结果:直接降级方案 直接给我把方案降级了,连基本功能都不实现了。 于是,我默默地关掉了它。 跑分与实测的巨大鸿沟这能跟 claude 比?我觉得跟 K2 都差了十万八千里! 官方还专门做了"Real-World Evaluation",在 52 个编程任务上与 Claude 4 Sonnet、Kimi-K2 对比,声称"largely comparable experience"。 但我的实测体验告诉我:差距不是一点半点。 浪费我一早上的时间。 我必须说几句扎心的话: 国产 AI 确实在进步,这点我承认。但是,进步不等于可以吹牛。 看了几个公众号,看得我热血沸腾。 但用了一上午,我只想说:醒醒吧! 当然,我不知道是不是评测的时候人太多了,导致它模型降级了还是什么。 |