今天看到 OpenAI 发了 GPT-5.2 ,很快有测试出来,里面一张MRCRv2 的长上下文测试结果很惊艳。
这个测试简单说就是,在一大堆对话里埋几个"针"(特定的问题和答案),然后让模型去找。GPT-5.2 在 4 根针的测试里,一直到 25 万 token 都能保持接近 100% 的准确率。
这什么概念呢?25 万 token 大概是一本 15-20 万字的小说的长度。也就是说,你把一整本书扔给它,在书里随便埋几个细节,它都能准确找出来。
而同样的测试,GPT-5.1 的表现就差很多,随着上下文变长,准确率掉得很厉害。
但这说明什么?
我觉得这个测试结果是很不错,但要小心解读。
这个测试测的是注意力保持和信息检索能力——就是模型能不能在很长的对话里,一直记得你之前说过的话,能不能准确地把埋在里面的信息捞出来。
而这对于我们日常的咨询类对话来说太重要了。
比如你在和 AI 聊一个复杂的小说设定,在一个窗口里断断续续聊了两个小时,突然问它"我之前说那个反派的动机是什么来着",它能不能准确回答?
或者你在讨论一个社会学话题,铺垫了很多背景,它能不能把这些背景都记住,然后给出一个建立在所有这些上下文之上的回答?
从这个角度说,GPT-5.2 可能真的是当下的长对话咨询之王。
特别适合什么场景呢?我觉得是:
但是,输出质量呢?
这就是我想说的重点了。
能记住东西,和能写出好东西,是两回事。
MRCRv2 测的是"找针",不是"织布"。它测的是模型能不能从一大堆文字里准确检索信息,但没有测模型能不能持续输出高质量的长文本。
这两个能力其实挺不一样的。
打个比方:一个人可能是记忆天才,经过训练,他能把一本书的每个细节都记住——但这完全不代表他自己能写出一本同样好的书。
所以 GPT-5.2 在这个测试上碾压其他模型,不一定意味着它写长篇小说的能力也碾压其他模型。这个还需要进一步测试才知道。
比方说今天早上模型刚出来的时候我就简单测了一个安利,让GPT-5.2写仙侠/武侠题材里面的一位女主角出场的场景,凸显人物的魅力。
它写的文笔和场景设计,比起之前5.1可能都有进步,是能看出更丰满一些。凸显GPT-5之后,GPT模型的知识量和智力确实不断在提升。
但是我仔细看之后,觉得那种隐藏的AI味儿,那种强行凹造型凹台词的GPT风味依然存在。
顺便说说其他模型
Gemini 3 Pro有个很大的优势:100 万 token 的上下文窗口。这意味着你可以真的把一整本书扔进去让它分析。虽然它在 MRCRv2 的 8 针测试里只拿到 77% 左右,不如 GPT-5.2 的 85%,但人家窗口大啊。窗口大意味着能处理的信息量大,这在某些场景下是决定性优势。
不过 Gemini 3在上下文拉长之后的输出质量一直被吐槽神鬼二象性,虽然创意十足,但是文风崩坏太快,降智也是个问题。
它一次出文的长度也不够,我自己测试经常会强行缩写收尾导致质量时不时崩溃。
所以,"能吃下去"和"能消化好"还是两回事。
Claude 4.5(包括 Sonnet 和 Opus兄弟俩)的情况比较特别。A社没有公布 MRCRv2 的直接数据,而且它的上下文窗口只有 20 万 token(超长上下文测试版不算,一般用户也用不上),没法参与那些 25 万 token 以上的测试。
但是!
在我自己的测试里,Claude 4.5 系列在小说输出上的表现是真的好。Sonnet 和 Opus 都可以非常连贯地输出 2 万字以上的小说,文风和写作方向都很稳定,这在其他模型的 API 里基本是做不到的。
质量嘛,说实话也还过得去。虽然到了 2 万字这个级别,后面的剧情确实会显得比较水,节奏感会变差,有的时候像梦游,但至少它能撑到那个长度,形式上大体不崩。这个"不崩"本身就很难得了。
所以结论是什么
我觉得可以这样理解:
不同的能力,适合不同的场景。
今天看这个测试结果最大的收获是:不要看到一个"长上下文"的测试结果好,就觉得这个模型所有跟"长"有关的能力都好。注意力保持、信息检索、持续输出质量,这些是不同的能力维度。