体验了一天，我对 GPT-5 失望了！

显示全部楼层

昨天晚上，AI 圈发生了大事件——GPT-5 来了！

OpenAI 正式发布了 GPT-5，这是他们迄今为止在编码和智能体任务方面表现最佳的模型。

官方数据显示，GPT-5 在 SWE-bench Verified 测试中得分 74.9%，在 Aider polyglot 测试中得分 88%，都达到了行业领先水平。

理论上，它是目前最强的模型，大版本的更新，整个科技圈都在沸腾。

我看到 Cursor 第一时间推出了 GPT-5 支持，且赠送免费积分，心想这下可以见证历史了。

于是，我今天就赶紧对它进行了一个实测。

结果...让我有点失望。

Cursor 的 GPT-5 支持

直接更新 Cursor 的最新版本，就可以看到 GPT-5 的模型选项了：

目前 Cursor 支持的版本是 272k 的上下文，按照 Cursor 的说法是"launch week"免费试用，所以大家赶紧去试试，目前速度也很快。

不过，依然对国内有限制，需要海外代理才能正常访问。

Augment 的意外惊喜

今天，我又发现 Augment 竟然也支持模型选择了！

这打破了 Augment 之前一直黑盒模型的作风，看起来官方也在对 GPT-5 进行实际的验证和评测：

这个变化很有意思，说明连 Augment 这样的专业工具都在重新审视模型选择的重要性。

官方的乐观评价

Cursor 官方其实也给出了自己的实测，他们应该是之前就已经拿到了内部体验资格：

整体对 GPT-5 的评价不错，看起来是超越 Claude，成为当前的 SOTA 了。

但是，实际体验真的如此吗？

我的真实体验：从期待到失望

其实一开始，表现的还挺不错的。

先让它修复一个报错问题：

加一些功能，都能精准的加上：

这时候我还挺兴奋的，心想 GPT-5 果然名不虚传。

但是给了它一个比较复杂一点的插件问题，折腾了 1 个小时，都没有搞定：

这时候我开始怀疑了，是不是我的问题描述不够清楚？

对比测试：GPT-5 vs Claude

接着，我又用 Augment 测试了同样的提示词。

GPT-5 的表现：

GPT-5 会长篇大论地进行分析，它的返回结果让人感到头疼，很偏理论：

Claude 的表现：

而切换成 Claude，明显感觉不一样，不会长篇大论的输出理论，而是真实调用工具去尝试解决问题：

最后，Claude 帮我解决了问题，我再切回到 GPT-5，结果它又给我改坏了...

这种对比太明显了，一个在纸上谈兵，一个在真刀真枪地干活。

三个明显的问题

通过一天的折腾，我发现 GPT-5 有三个明显的问题：

1. 中文支持不够好

GPT-5 总是回复英文，即使我用中文提问，它也经常用英文回答。

这对于中文用户来说，体验很不友好。Claude 在这方面就做得好很多，能够很自然地用中文交流。

2. 工具调用能力不足

GPT-5 对 MCP（Model Context Protocol）支持不好，不能很好地调用 tools。

而 Claude 第一时间就会去调用 tools 解决问题，这种差异在实际编程场景中非常明显。

3. 过于理论化

GPT-5 更偏理论，总是输出一大段分析，Claude 更偏实际，能够真正解决问题，少说多做。

另外，早上 GPT-5 的速度还挺快，等到了中午之后，应该是用的人多了，GPT-5 开始明显变慢了。

这种体验的不稳定性，对于需要高效工作的开发者来说，是很致命的。

我的思考：AI 的人性化很重要

感觉起来，GPT-5 还是太"AI"了，没有 Claude 的人性化。

什么是人性化？

就是能够理解你真正想要什么，而不是给你一堆看起来很专业但实际没用的分析。

就是能够直接动手解决问题，而不是在那里长篇大论地讲道理。

就是能够用你习惯的语言和方式与你交流，而不是一副高高在上的学术腔调。

在编程这个实用性极强的领域，我更需要的是一个能干活的助手，而不是一个只会分析的顾问。

有点失望了

整体而言，我对 GPT-5 还是比较失望的。

不是说它不强，而是它的强没有体现在我最需要的地方。

也许 GPT-5 在某些学术测试或者理论分析上确实更强，但在实际的编程工作中，至少在我的体验里，它不如 Claude 实用。