返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

MATEval:一个用于推进开放式文本评估的Multi-Agent讨论框架

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 09:29 |阅读模式 打印 上一主题 下一主题

随着生成性大型语言模型(LLMs)的快速发展,评估这些模型生成的文本质量,尤其是在开放式文本生成方面,一直是一个挑战。传统的手动评估方法耗时且成本高昂,而自动化评估方法如BLEU、Rouge和METEOR在开放式文本评估中存在局限性。最近的研究开始探索使用LLMs作为评估智能体,但这种方法存在不确定性和不稳定性。

为了解决这些问题,提出了MATEval框架,一个多智能体文本评估框架,旨在模拟人类协作讨论方法,通过多个智能体的交互来评估文本。

Multi-Agent文本评估框架

MATEval框架包括评估智能体反馈智能体总结智能体,它们协同工作完成文本评估任务。
MATEval框架示例:包括提示和对话,融合了自我反思、思维链(CoT)、反馈机制和最终总结的讨论过程。

MATEval框架关键组成部分:

    ingFang SC", "Microsoft YaHei", SimHei;font-size: 14px;letter-spacing: 0.5px;text-align: start;text-wrap: wrap;background-color: rgb(49, 49, 58);" class="list-paddingleft-1">
  1. 评估智能体(Evaluator Agent):这是框架中的主要评估实体,负责进行多轮的文本评估。评估智能体通过设计好的提示(prompts)引导,存储和处理来自其他智能体的陈述,并以此为参考进行对话历史记录。

  2. 反馈智能体(Feedback Agent):反馈智能体在每轮讨论后评估讨论的内容和质量,专注于识别低效的对话和分歧,并提出改进建议,以提高后续讨论的效率和共识。

  3. 总结智能体(Summarizer Agent):在所有讨论结束后,总结智能体负责整理整个讨论过程和结果,提供详细的评估报告,包括错误类型、具体位置、解释和得分。

  4. 自我反思(Self-reflection):在每轮讨论中,智能体会进行自我反思,考虑同伴的输入来丰富对问题的理解,并调整自己的陈述。

  5. 思维链(Chain-of-Thought, CoT)策略:通过提示引导智能体自主分解问题,并在每轮讨论中只关注一个子问题,从而深入分析文本。

  6. 反馈机制:在每轮讨论结束时,反馈机制通过提示引导反馈智能体总结和评估讨论,指导后续讨论减少重复,提高效率,并引导参与者达成共识。

  7. 输出格式:MATEval框架提供两种格式的评估报告:一种是基于问答(Q&A)的格式,便于计算相似度和相关性分数;另一种是文本报告格式,便于业务人员快速理解和迭代模型。


MATEval框架在两个英文故事文本数据集(ROCStories和WritingPrompts)和两个中文故事文本数据集(LOT和Ant)上进行了实验。实验结果显示,MATEval在评估LLMs生成的文本方面优于现有的开放式文本评估方法,并且与人类评估具有最高的相关性。特别是,结合自我反思和CoT策略的方法在评估逻辑不一致性、不连贯性和不当词汇选择方面表现尤为出色。
使用不同模型和MATEval不同策略在ROC/WP数据集上评估结果与人类判断的相关性,其中SA代表单智能体,SR表示自我反思,CoT代表思维链。符号ρ/τ分别表示斯皮尔曼/肯德尔相关性。最高相关性值以粗体突出显示。

使用不同模型和MATEval不同策略在LOT/Ant数据集上评估结果与人类判断的相关性。最高相关性值以粗体显示。


MATEval:AMulti-AgentDiscussionFrameworkforAdvancingOpen-EndedTextEvaluationhttps://arxiv.org/pdf/2403.19305.pdf



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ