ReAct：LLMs中推理与行为的协同作用

显示全部楼层

一句话总结

“
ReAct就是可以让LLMs像人类一样可以边推理边行动的一种动态推理模式，传统的推理和行动分离的模式会导致无法应对实时变化的环境，直接端到端的推理由于没有外界行动的反馈更容易造成错误决策，而使用ReAct可以及时得到行动反馈，做出稳健的决策。

摘要

与之前将LLM推理和行动两方面的能力作为单独的主题研究不同，本研究中探索了使用 LLM 以交替方式同时生成推理轨迹和特定于任务的动作，从而允许两者之间产生更大的协同作用：推理轨迹有助于模型推断、跟踪和更新动作计划以及处理异常情况，而动作则使它能够与知识库或环境等外部来源进行交互并收集额外信息。

在问答（HotpotQA）和事实验证（Fever）任务中，ReAct 通过与简单的维基百科 API 进行交互，克服了思维链推理中的普遍问题幻觉和错误传播，并生成比没有推理轨迹的基线更易于理解的人类般的任务解决路径。此外，在两个交互式决策制定基准 ALFWorld 和 WebShop 中，ReAct 在仅用一个或两个上下文示例的情况下，分别以绝对成功率 34% 和 10% 超越了模仿学习和强化学习方法。

介绍

人类智能的独特之处在于，能够无缝地将任务导向的行为与言语推理相结合。这种“行动”和“推理”的紧密结合使得人类能够在新的情况下快速学习新任务，即使面临看不见的情况或信息不确定性也能做出稳健的决策或推理。

在LLM支持的自主系统中也可以采用此类的交互式决策方式。

实验

本文进行了以下三个对比实验：

第一个实验是针对HotpotQA和Fever两个阅读理解任务的比较。在这个实验中，作者使用了PaLM-540B作为基础模型，并比较了四种不同的提示方法（标准提示、CoT提示、Act提示和ReAct提示）的效果。结果表明，ReAct提示比Act提示表现更好，在这两个任务上都取得了更好的准确率。

第二个实验是对ReAct和CoT两种提示方法的比较。在这个实验中，作者比较了ReAct提示和CoT提示在HotpotQA和Fever两个任务上的效果。结果表明，ReAct提示在Fever任务上表现略好于CoT提示，但在HotpotQA任务上略微落后于CoT提示。

第三个实验是在ALFWorld和WebShop两个决策制定任务上的比较。在这个实验中，作者使用了随机标注的轨迹来提示模型，比较了Act提示和ReAct提示在这两个任务上的效果。结果表明，ReAct提示在这两个任务上都表现得更好，特别是在WebShop任务上，ReAct提示的表现甚至超过了现有的模仿学习方法。

结论

ReAct有以下几个优点：

简单直观：设计ReAct提示是直接的，人类注释者只需将其思考以语言的形式添加到其采取的动作之上。
通用灵活：由于灵活的思想空间和思想-动作出现格式，ReAct适用于各种任务，包括问答、事实验证、文本游戏和网页导航等。
性能表现良好：ReAct仅需学习一到六个上下文示例即可泛化到新任务实例，始终优于只使用推理或行动的基线方法。
可解释性和可控性：ReAct提供了可解释的决策过程，使人类能够轻松检查推理和事实正确性。此外，人类还可以通过编辑思路来控制或纠正代理行为。

ReAct目前是一种无监督的学习方法，仍然缺乏对于长期奖励的关注。作者表示未来的研究将考虑结合强化学习，以实现更好的长期规划和决策能力。