o1新模型数据乐观，现实却打脸？

显示全部楼层

在AI领域，幻觉问题（即模型生成不准确或错误信息）一直是一个难以解决的挑战。

OpenAI最近发布的 o1-preview 和 o1-mini 版本声称在减少生成错误信息（幻觉率）方面取得了显著进展，但它们的实际表现是否真的如宣传所说呢？

数据 vs. 现实

根据OpenAI的内部测试，o1-preview的幻觉率确实比GPT-4o更低。

例如，在SimpleQA测试中，o1-preview的幻觉率为0.44，而GPT-4o为0.61。从数据上看，这似乎是一次技术上的重大突破。然而，现实情况要复杂得多。

用户反馈显示，尽管测试数据表明有所改进，o1-preview在实际应用中，特别是在处理复杂任务时，反而更容易产生幻觉。

模型生成的错误信息带有更强的“自信”，这导致用户更容易被误导。

定量进步与传闻不符

尽管测试结果看起来令人鼓舞，但在实际应用场景中，o1-preview和o1-mini的幻觉问题依然显著，甚至比前代模型更频繁。

这种反差引发了对测试数据可靠性的质疑，同时也揭示了当前AI模型在处理开放性任务时的不足与不稳定性。

总体而言，OpenAI的o1-preview和o1-mini模型在某些测试中展现出幻觉频率的降低，反映了技术优化的进展。

然而，用户反馈和实际应用表明，这些模型在真实环境中的表现要比测试数据复杂得多。OpenAI也承认，尽管幻觉问题有所改善，但尚未完全解决。

我们拭目以待，看看 OpenAI 后续会如何应对这一问题！