链载Ai

标题: 疯狂24h后,openai o1有哪些新的秘密? [打印本页]

作者: 链载Ai    时间: 昨天 11:24
标题: 疯狂24h后,openai o1有哪些新的秘密?

在openai o1发布24h后,有哪些值得关注的消息呢?

  1. o1-preview 在 ARC-AGI 测试中的得分为 21%(目前的最佳水平是 46%):总的来说,o1 代表了一种从“记住答案”到“记住推理过程”的模式转变,但并没有脱离目前更广泛的一种模式 -> 通过调整曲线以适应分布来提升性能,使所有内容都符合分布。
  1. o1-preview 在 aider 代码编辑测试中的得分约为 80%(目前的最佳水平 Claude 3.5 Sonnet 是 77%):o1-preview 模型在适应 aider 的差异编辑格式时遇到了问题。o1-mini 模型在适应整个和差异编辑格式时都有困难。aider 对格式的要求非常宽松,尽力接受任何接近正确格式的输入。令人惊讶的是,这些强大的模型在处理简单文本输出格式的语法要求时遇到了困难。看来 aider 可能需要优化其提示和编辑格式,以更好地发挥 o1 模型的能力。
  1. o1-preview 在 Cognition-Golden 测试中的得分约为 52%(提供建议):对于以前的模型,Chain-of-thought 和让模型“think out loud”是常见的 prompt 技巧。相反,我们发现让 o1 仅给出最终答案往往表现更好,因为它会在回答之前进行思考。o1 需要更紧凑的上下文,并且对杂乱和不必要的 token 更敏感。传统的提示方法通常会包含多余的指令,这对 o1 的表现有负面影响。
  1. Andrew Mayne 的使用建议: https://x.com/andrewmayne/status/1834408991839158422

    我已经使用了 @OpenAI 的 o1 几个星期。关于使用它的建议:

    1. 不要把它当作传统的聊天模型。把 o1 想象成一个非常聪明的朋友,你要给她发私信来解决问题。她会回复你一个经过深思熟虑的解释,逐步引导你解决问题。

    2. 在记事本中写你的提示。提前规划好你想要什么。详细解释所有步骤,提供比平时更多的细节。

    3. 对于那些不需要太多世界知识但需要逐步跟进的任务,使用 o1-mini。

    4. o1 通常会给我部分答案和完整回应,而 o1-mini 会给我步骤。

    5. 根据我的经验,当你进行修正或调整时,要耐心地解释你需要改变的内容。那些具备推理能力的模型对经过推理的回应会有很好的反应。

  2. @btibor91 分享在 OAI 研究团队 AMA 的总结 https://x.com/btibor91/status/1834686946846597281

  3. 模型名称和推理模式

    o1 模型的大小和性能
    输入 Token 上下文和模型能力
    工具、功能和即将推出的特性
    CoT(思维链)推理

    API 和使用限制

定价、微调和扩

模型开发和研究洞察

提示技术和最佳实践

一般反馈和未来改进

卓越的模型能力







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5