链载Ai

标题: 可靠的Agent该用哪个模型,LLM多轮对话中的「迷失」现象 |微软最新 [打印本页]

作者: 链载Ai    时间: 昨天 21:07
标题: 可靠的Agent该用哪个模型,LLM多轮对话中的「迷失」现象 |微软最新

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;font-style: italic;padding: 1em 1em 1em 2em;border-radius: 6px;color: rgba(0, 0, 0, 0.6);background: rgb(247, 247, 247);box-shadow: rgba(0, 0, 0, 0.05) 0px 4px 6px;">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1em;display: block;letter-spacing: 0.1em;color: rgb(63, 63, 63);">ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(213, 95, 111);">导读:微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究,说当前最先进的LLM在多轮对话中表现会大幅下降,平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型(包括Claude 3.7-Sonnet、DeepSeek-R1等)在多轮对话中的表现差异,还解析了模型"迷失"的根本原因及有效缓解策略。这对于开发Agent选择模型非常重要,值得您仔细一读。文章后半段有研究者用于研究目的的开源代码和数据集链接。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(213, 95, 111);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">多轮对话:AI最强模型竟然也「迷失」


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">15种LLM模型在单轮(FULL)和多轮(SHARDED)对话中的表现对比,展示了多轮对话中的显著性能下降。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">当最先进的大语言模型(LLM)面对多轮对话时,它们的表现会大幅下降,ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: inherit;color: rgb(213, 95, 111);">平均降幅高达39%。微软研究院与Salesforce Research合作的最新研究《Lost in Conversation》通过对15个顶级模型进行20万次对话模拟,揭示了这一普遍存在但鲜少被关注的问题。研究发现,无论是商业闭源模型(如GPT-4.1、Gemini 2.5 Pro)还是开源模型(如Llama系列),都难逃"迷失"困境,这对正在开发Agent系统的工程师提出了严峻挑战。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0.3em 1em;color: rgb(255, 255, 255);background: rgb(213, 95, 111);border-radius: 8px;box-shadow: rgba(0, 0, 0, 0.1) 0px 4px 6px;">迷失让可靠性暴跌112%


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 14px;color: rgb(63, 63, 63);">

能力(Aptitude)与可靠性(Reliability)的对比分析,显示多轮对话中可靠性下降是主要问题。

研究者通过创新性的指标分解,将LLM在多轮对话中的性能下降分为两部分:

这意味着模型在最好和最差表现之间的差距扩大了一倍多。这种高度不可靠性解释了为什么您的AI助手有时表现出色,有时却莫名其妙地"丢三落四",即使是同一个问题,多次尝试的结果可能截然不同。

分片模拟:模型迷失的实验设计


研究涵盖的六大任务类型及其分片指令示例,展示了如何将完整指令分解为多个信息片段。

研究者设计了名为"分片模拟"的创新实验框架,将完整指令分解为多个信息片段(shards),然后在多轮对话中逐步披露。这种方法模拟了现实世界中用户逐步明确需求的对话过程,而非传统评估中一次性提供完整信息的场景。研究覆盖六大任务领域:

  1. 1. 编程(Code)
  2. 2. 数据库查询(Database)
  3. 3. API调用(Actions)
  4. 4. 数学问题(Math)
  5. 5. 数据到文本生成(Data-to-text)
  6. 6. 多文档摘要(Summary)

这样的广泛覆盖确保了研究结果具有普遍适用性。

指令分片与对话模拟类型


这张图展示了研究的核心实验设计方法论,分为两部分:

  1. 1.上部分(指令分片)





欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5