链载Ai
标题: 推理LLM模型正在放弃temperature参数 [打印本页]
作者: 链载Ai 时间: 昨天 17:13
标题: 推理LLM模型正在放弃temperature参数
temperature参数大概是大部分人最了解的LLM decode的参数了,但目前看起来temperature参数大限将至。
1、推理模型与temperature开始水土不服
1.1、OpenAI
在前沿模型中,最早开始限制temperature参数的是OpenAI的o1模型,从o1-preview开始就是如此。一度以为可能是有一些技术问题没有解决,但想不到OpenAI从此以后,推理模型都不能设置temperature参数了。
对于最新的GPT-5.2来说,只有在完全关闭思考阶段才能使用temperature、top_p、logprobs参数。
https://platform.openai.com/docs/guides/latest-model
1.2、Gemini
Gemini 3发布之后,在其文档中的一个不显眼的地方有一个说明:温度设置:如果您的现有代码明确设置了温度(尤其是将温度设置为较低的值以获得确定性输出),我们建议您移除此参数并使用 Gemini 3 的默认值 1.0,以避免在处理复杂任务时出现潜在的循环问题或性能下降。
https://ai.google.dev/gemini-api/docs/gemini-3
这个问题就开始变得有意思了,Gemini 2.5 Pro也是推理模型,为什么从Gemini 3系列开始不建议使用temperature参数了?而且还并不是说没必要设置,而是设置过低会有问题。1.3、其他开源模型
实际上不光是上述两个模型有这个问题,还有很多其他模型也有此表现,不建议设置太低的temperature。包括:
- DeepSeek-R1,说明在 https://huggingface.co/deepseek-ai/DeepSeek-R1
- Qwen QwQ-32B,说明在 https://github.com/QwenLM/QwQ
- Qwen3 的 Thinking 模式,说明在 https://qwen.readthedocs.io/en/latest/getting_started/quickstart.html
还有一篇投ICLR 2026的文章在讨论这个事情:
https://openreview.net/forum?id=lPwsHTEPQ9
- 温度升高后 looping(无限循环问题)明显下降,并且准确率在某个中温区间上升到峰值(文中提到大概在 0.6–0.8 一带)。
- 更大模型 loop 更少、蒸馏出来的小模型 loop 往往更严重。
- 推理模型会 loop,而同家族 instruct 模型可能几乎不 loop。
2、Temperature的墓志铭
最早大家使用temperature参数主要是为了实现几个目标:降低temperature来获取更可靠的结果、通过设置为0来获得更好的可复现性、调高temperature来获得更多多样性。通过temperature=0或greedy decode来获取可复现性对于商业闭源API早就已经失效,产生结果不一致的问题太多,而可复现性需求又不足够强。更别说LLM对于输入context/token序列本身又较为敏感,单纯decode阶段没有随机性并非最主要问题。这个功能已经基本失效,只有在一些开源LLM模型的部署上还能通过这种方式实现。降低temperature对于提升结果可靠性方面的作用本就非常有限,在有了推理模型之后,模型自己反思能力提升,偶然的decode 出有问题的token对于整体回答的正确性影响已经没有那么大了。模型的推理更多在更高层的语义空间中进行,在token序列空间上的可干预性越来越小了。在多样性方面,已经很久没有听到人再提这个方式了。现在提升多样性的主要建议方式是靠人工在context中注入“多样性源”。随着LLM方面在token层面干预语义能力的逐步弱化,temperature这样的参数的价值也越来越少了。再加上推理模型在低temperature上表现有问题,所以更加速了该参数的退位。3、技术分析浅谈
本文并不想太多地讨论这个问题,因为这方面公开材料中缺乏的信息太多。从我个人体验角度也是更难的问题更容易触发无限循环。我的解读是:循环一种LLM任务中很主要的pattern,当模型从已有context中无法匹配其他pattern时(其他pattern的匹配度都很低),模型更容易选择到无限循环这类简单又主要的模式。(LLM的本质看来也是复读机)打个比方,这就好像是无限循环的attention score中等,而其他pattern的attention score都不够高的时候,模型就会选择这个凸显的无限循环。从各个模型的信息来看,推理模型更容易出现无限循环问题,这看起来跟RL post-train是相关的。但在这之下想找出一个说服力很强的解释就比较难了,我看到的解释都没有足够的外推能力,这里就不提了。A、结语
本文是一个提醒,大家可能都应该考虑移除temperature的设置了,特别是对于gemini 3系列模型来说。从ChatGPT引爆公众对于LLM的期待之后,到现在只有3年,但temperature这么重要的参数都经历被人淡忘,甚至被禁止/建议放弃使用。不得不说技术变化还真的比较快。交流与合作
我目前正在看机会,详情请见 年底的逆向招聘尝试 2025.11
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.12.18 首发于微信公众号。
| 欢迎光临 链载Ai (http://www.lianzai.com/) |
Powered by Discuz! X3.5 |