链载Ai

标题: 今天分享一篇阿里的利用Agent思想做工具调用的文章,标题为《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》 [打印本页]

作者: 链载Ai    时间: 8 小时前
标题: 今天分享一篇阿里的利用Agent思想做工具调用的文章,标题为《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》

ingFang SC";font-size: 14px;text-wrap: wrap;text-align: left;line-height: 1.75;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">今天分享一篇阿里的利用Agent思想做工具调用的文章,标题为《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》。其提出的多LLM代理微调框架,将工具调用拆解为三个agent(Planner、Caller、Summarizer),并结合一个二阶段的微调策略。对比单个LLM表现更为出色,性能也更为稳定,并且能够超过像ChatGPT、GPT4等闭源模型,证明了多agent思路在工具调用上的有效性。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">除了工具调用,或许本文的方法也可以拓展到问答的其他场景,大家可以参考。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Title:Small LLMs Are Weak Tool Learners: A Multi-LLM AgentURL:https://arxiv.org/abs/2401.07324

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Code:https://github.com/X-PLUG/Multi-LLM-Agent

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">Authors:Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">1 Motivation

ingFang SC";letter-spacing: normal;text-align: start;text-wrap: wrap;zoom: 0.33;"/>

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 1.1em;font-weight: bold;margin-top: 2em;margin-right: 8px;margin-bottom: 0.75em;padding-left: 8px;border-left: 3px solid rgb(15, 76, 129);color: rgb(63, 63, 63);">2 Methods

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;margin: 1.5em 8px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">论文通过提出一个新颖的多LLM框架来解决问题,该框架将任务规划、工具调用和结果总结的能力分解为计划者、调用者和总结者三个组件。每个组件由专注于特定能力的单个LLM实现,并与其他LLM合作完成任务。此外,论文引入了一个两阶段训练范式,首先在整个数据集上对背景LLM进行微调,其次使用微调过的LLM对上述三个组件进行初始化,然后再在相应的子任务上进行持续的微调。

2.1详细方法和步骤:

规划器(Planner):α-UMi 框架中的规划器组件负责生成任务执行的逻辑和计划。它根据当前系统状态和用户指令来决定下一步的操作。规划器的输出包括一个理由(Rationale)和一个决策,决策可能是:

调用者(Caller):根据规划器的指示和理由,调用者组件负责调用具体的工具或 API。它根据规划器提供的逻辑生成合法且有用的请求,并从工具中获取观察结果(Observation)。

总结器(Summarizer):一旦规划器决定已经有足够的信息来解决用户指令,它会指示总结器生成最终的答案。总结器根据执行轨迹和用户指令来构建最终的回复,提供给用户。

2.2 训练方法

α-UMi 采用了全局到局部渐进式微调(Global-to-Local Progressive Fine-Tuning,简称 GLPFT)策略,用于有效训练多 LLM 系统,它分为两个主要阶段:

  1. 1.全局微调(Global Fine-tuning)






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5