聊聊 LLM 的角色扮演评测（下）

显示全部楼层

往期亮点：
RoleLLM：提出了首个系统化、精细化的角色扮演基准数据集 RoleBench，包含众多角色和大量样本，数据构建分五步，测试分数计算采用 Rouge-L 分数，真值包括三部分。
InCharacter：使用心理量表评估角色人格保真度，是两阶段评估框架，包括面试和评估阶段，同时讨论了方法存在的局限性。
CharacterGLM：为输出基于角色的多轮对话模型引入多维度主观评测方式，招募标注者从六个维度打分，并对 LLM 的输出错误进行了六个方面的细粒度分析。

为了从更多的角度对 LLM 的角色扮演进行评测，我们将会在本期栏目中为大家带来更多关于 LLM Roleplay Evaluation 的内容。其中，本期栏目分享的论文中的 CharacterEval、Ditto 两篇论文也已经被 ACL2024 所接收。

希望可以对大家有所帮助。

CharacterEval

CharacterEval [1]，一个中文的角色扮演代理评估基准，包含1785个多轮角色扮演对话，11376条数据，77个来自中国小说和剧本的角色。其数据收集过程秉持着对素材的忠实、多样的数据分布、更多的多轮对话、人类的积极参与。

CharacterEval 采用了多方面的评估方法，包括四个维度的13个指标，如下所示：

对话能力（流畅度、相关性、一致性）
角色一致性（知识暴露、知识准确性，知识幻觉、人物角色行为、人物说话风格）
角色扮演吸引力（人类相似性、沟通技巧、表达多样性、同理心）
人格回溯测试（MBTI 准确率）

CharacterEval 对许多 LLM （ChatGLM3、XVERSE、Qwen、InternLM、Baichuan2）进行了测试，让我们来看一部分开源模型的测试结论。

InternLM-20BandBaichuan2-13Bshow impressive potential.（InternLM-20B和Baichuan2-13B展示出了令人印象深刻的潜力）
In the category of models with fewer than 10 billion parameters,Baichuan2-7BandInternLM-7Bdemonstrate comparable competencies.（在参数量小于 10B 的模型中，Baichuan2-7B和InternLM-7B表现出相当的能力）
InternLM-20Bemerges as the leader in empathy, highlighting its unique potential to provide emotional support.（InternLM-20B在同理心方面成为领先模型，突出了其提供情感支持的独特潜力）
InternLM-20Bmaintains consistent performance in terms of character consistency and conversational ability.（InternLM-20B在角色一致性和对话能力方面保持了一致的性能）

可以看到，作为开源通用模型的 InternLM-20B 在共情能力，提供情感支持能力方面表现出色。

RoleEval

RoleEval [2] 提出了一个双语角色扮演评测基准，包含 RoleEval-Global（国际公认角色）和 RoleEval-Chinese（中国流行角色）两部分，共有6000个问题。这些任务来自各种领域，包括名人、动漫、漫画、电影、影视剧、游戏和小说。

如上图所示，RoleEval 的评测数据包括不同类型的人物、问题、语言、影响力、推理方式和知识类型。RoleEval 考虑了描述角色所需的三种基本知识，即固有属性（性别、个性等）、社会关系（与父母、门徒等人的关系）、经验（角色的经历）。

在评测形式方面，RoleEval 选择了与 MMLU 类似的评测方式，即单项选择题（Multiple-Choice Questions）。尽管这种评测方法在评测过程中存在着局限性，比如无法充分测试多个答案可能正确的场景。在评测过程中，RoleEval 采用了 Zero-shot 和 Few-shot 的方法来评测各种模型的效果。

Ditto

Ditto [3] 所采用的角色扮演评测方法共包含三个度量指标（如上图所示），分别为一致的角色身份、准确的角色相关知识、未知问题的拒绝。除此之外，评测时只给模型提供目标人物的人物简介，以评估 LLM 是否可以挖掘角色扮演过程的内在知识。

尽管这篇论文的重心在于使用自对齐（Self-Alignment）的方式进行角色扮演微调，但是这篇论文所进行的角色扮演评测方法也是值得我们学习的。