返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

聊聊 LLM 的角色扮演评测(下)

[复制链接]
链载Ai 显示全部楼层 发表于 2025-12-2 10:52:22 |阅读模式 打印 上一主题 下一主题
往期亮点:
  • RoleLLM:提出了首个系统化、精细化的角色扮演基准数据集 RoleBench,包含众多角色和大量样本,数据构建分五步,测试分数计算采用 Rouge-L 分数,真值包括三部分。
  • InCharacter:使用心理量表评估角色人格保真度,是两阶段评估框架,包括面试和评估阶段,同时讨论了方法存在的局限性。
  • CharacterGLM:为输出基于角色的多轮对话模型引入多维度主观评测方式,招募标注者从六个维度打分,并对 LLM 的输出错误进行了六个方面的细粒度分析。

为了从更多的角度对 LLM 的角色扮演进行评测,我们将会在本期栏目中为大家带来更多关于 LLM Roleplay Evaluation 的内容。其中,本期栏目分享的论文中的 CharacterEval、Ditto 两篇论文也已经被 ACL2024 所接收

希望可以对大家有所帮助。

CharacterEval

CharacterEval [1],一个中文的角色扮演代理评估基准,包含1785个多轮角色扮演对话,11376条数据,77个来自中国小说和剧本的角色。其数据收集过程秉持着对素材的忠实多样的数据分布更多的多轮对话人类的积极参与

CharacterEval 采用了多方面的评估方法,包括四个维度的13个指标,如下所示:

  • 对话能力(流畅度、相关性、一致性)
  • 角色一致性(知识暴露、知识准确性,知识幻觉、人物角色行为、人物说话风格)
  • 角色扮演吸引力(人类相似性、沟通技巧、表达多样性、同理心)
  • 人格回溯测试(MBTI 准确率)

CharacterEval 对许多 LLM (ChatGLM3、XVERSE、Qwen、InternLM、Baichuan2)进行了测试,让我们来看一部分开源模型的测试结论

  • InternLM-20BandBaichuan2-13Bshow impressive potential.(InternLM-20BBaichuan2-13B展示出了令人印象深刻的潜力)
  • In the category of models with fewer than 10 billion parameters,Baichuan2-7BandInternLM-7Bdemonstrate comparable competencies.(在参数量小于 10B 的模型中,Baichuan2-7BInternLM-7B表现出相当的能力)
  • InternLM-20Bemerges as the leader in empathy, highlighting its unique potential to provide emotional support.(InternLM-20B在同理心方面成为领先模型,突出了其提供情感支持的独特潜力)
  • InternLM-20Bmaintains consistent performance in terms of character consistency and conversational ability.(InternLM-20B在角色一致性和对话能力方面保持了一致的性能)

可以看到,作为开源通用模型的 InternLM-20B 在共情能力,提供情感支持能力方面表现出色。

RoleEval

RoleEval [2] 提出了一个双语角色扮演评测基准,包含 RoleEval-Global(国际公认角色)和 RoleEval-Chinese(中国流行角色)两部分,共有6000个问题。这些任务来自各种领域,包括名人、动漫、漫画、电影、影视剧、游戏和小说。

如上图所示,RoleEval 的评测数据包括不同类型的人物、问题、语言、影响力、推理方式和知识类型。RoleEval 考虑了描述角色所需的三种基本知识,即固有属性(性别、个性等)社会关系(与父母、门徒等人的关系)经验(角色的经历)

在评测形式方面,RoleEval 选择了与 MMLU 类似的评测方式,即单项选择题(Multiple-Choice Questions)。尽管这种评测方法在评测过程中存在着局限性,比如无法充分测试多个答案可能正确的场景。在评测过程中,RoleEval 采用了 Zero-shot 和 Few-shot 的方法来评测各种模型的效果。

Ditto

Ditto [3] 所采用的角色扮演评测方法共包含三个度量指标(如上图所示),分别为一致的角色身份准确的角色相关知识未知问题的拒绝。除此之外,评测时只给模型提供目标人物的人物简介,以评估 LLM 是否可以挖掘角色扮演过程的内在知识。

尽管这篇论文的重心在于使用自对齐(Self-Alignment)的方式进行角色扮演微调,但是这篇论文所进行的角色扮演评测方法也是值得我们学习的。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ