链载Ai

标题: LLM之模型评估:情感评估/EQ评估/幻觉评估等 [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: LLM之模型评估:情感评估/EQ评估/幻觉评估等

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;margin-bottom: 1.16667em;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">


ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: 16px;letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">



ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;margin-top: 2.33333em;margin-bottom: 1.16667em;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">

Human-like Affective Cognition in Foundation Models:情感认知评估

研究者们提出了一个评估框架,通过生成1280个多样化的场景来测试基础模型和人类在情感、评价、表情和结果之间的关系。实验结果显示,基础模型倾向于与人类直觉一致,有时甚至超过了人类参与者之间的一致性。

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: 16px;letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">


论文通过以下步骤解决这个问题:


论文进行了以下实验:


ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;margin-top: 2.33333em;margin-bottom: 1.16667em;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">

scylla:LLM的泛化能力评估

Quantifying Generalization Complexity for Large Language Models

https://github.com/zhentingqi/scylla

Scylla是一个动态评估框架,可以定量衡量 LLM 的泛化能力

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: 16px;letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">



论文的主要内容包括:


ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;margin-top: 2.33333em;margin-bottom: 1.16667em;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">

RevisEval:通过响应偏差提高模型评估效果

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: 16px;letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">


ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;margin-top: 2.33333em;margin-bottom: 1.16667em;clear: left;color: rgb(25, 27, 31);letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">

HelloBench:长文本评估

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

https://github.com/Quehry/HelloBench

ingFang SC", "Microsoft YaHei", "Source Han Sans SC", "Noto Sans CJK SC", "WenQuanYi Micro Hei", sans-serif;font-size: 16px;letter-spacing: normal;text-align: start;white-space: pre-wrap;background-color: rgb(255, 255, 255);">


分层长文本生成基准 (HelloBench),这是一个全面、真实、开放的基准,用于评估 LLM 在生成长文本方面的表现。HelloBench 基于布鲁姆分类法,将长文本生成任务分为五个子任务:开放式问答、摘要、聊天、文本完成和启发式文本生成。

大多数 LLM 无法生成长度超过 4000 个单词的文本。其次,虽然一些 LLM 可以生成更长的文本,但存在许多问题(例如,严重重复和质量下降)。第三,为了证明 HelloEval 的有效性,将 HelloEval 与传统指标(例如 ROUGE、BLEU 等)和 LLM-as-a-Judge 方法进行了比较,结果表明 HelloEval 与人工评估的相关性最高。


Measuring Human and AI Values based on Generative Psychometrics with Large Language Models:AI价值观评估

论文介绍了GPV,这是一种基于LLM的价值观测量工具,理论上基于文本揭示的选择性感知。通过微调LLM进行感知级价值测量,并验证了LLM解析文本为感知的能力。将GPV应用于人类博客和LLMs,展示了其在测量人类和AI价值观方面的优越性。


论文通过以下步骤解决这个问题:


Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

https://huggingface.co/datasets/google/frames-benchmark

论文试图解决的问题是大型语言模型(LLMs)在增强检索增强型生成(Retrieval-Augmented Generation, RAG)能力时的全面评估。

FRAMES数据集,这是一个用于测试RAG系统在事实性、检索准确性和推理能力方面的综合评估数据集。通过单步和多步评估实验,论文展示了即使是最先进的LLMs在处理FRAMES中提出的复杂、多跳推理任务时也存在显著挑战。论文强调了进一步增强这些模型的检索机制和推理能力的重要性,以提高它们在现实世界应用中的总体性能。同时,论文也讨论了潜在的局限性和伦理考虑,并提出了未来研究的方向。


论文详细介绍了以下几个方法:


Eureka: Evaluating and Understanding Large Foundation Models

论文试图解决大型基础模型(Large Foundation Models,简称LFMs)的严格和可复现性评估问题。


EUREKA,一个可重用和开放的评估框架,用于标准化大型基础模型的评估,超越了单一分数报告和排名。EUREKA框架提供了一个库,用于灵活地自定义评估管道,这些管道结合了评估所需的一系列组件,包括数据预处理、提示模板、模型推理、数据后处理、度量计算和报告。此外,论文还介绍了EUREKA-BENCH,这是一个可扩展的基准测试集合,测试的能力包括(i)对最新技术基础模型仍然具有挑战性的能力,以及(ii)代表基本但被忽视的能力,用于完成语言和视觉模态中的各种任务。


论文使用EUREKA框架和EUREKA-BENCH对12个最新技术的模型进行了分析,通过在数据的重要子类别中分解测量结果,提供了深入的失败理解和模型比较的洞察。这些实验包括:



Self-Taught Evaluators

论文试图解决的问题是如何在不依赖人类标注数据的情况下,改进评估器(evaluators)的性能。在大型语言模型(LLMs)的开发过程中,评估器被用作训练时的奖励模型以符合人类偏好,或作为人类评估的替代品。传统的方法是收集大量的人类偏好判断,这既昂贵又容易过时,因为随着模型的改进,这些数据可能会变得不再准确。论文提出了一种迭代自训练方法,仅依赖于合成生成的数据来训练评估器。


论文提出了一种迭代训练方案,通过以下步骤解决这个问题:


SysBench:指令遵循能力

SysBench: Can Large Language Models Follow System Messages?

https://github.com/PKU-Baichuan-MLSystemLab/SysBench

SysBench是一个基准,它从三个具有挑战性的方面系统地分析系统消息遵循能力:约束复杂性、指令错位和多轮稳定性。为了实现有效的评估,SysBench 根据现实场景中系统消息的六种常见约束类型构建了涵盖各种交互关系的多轮用户对话。数据集包含来自不同领域的 500 条系统消息,每条消息都与 5 轮用户对话配对,这些对话都是手动制定和检查的,以确保高质量。


具体方法包括:

EQ-Bench:情商评估

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

https://github.com/EQ-bench/EQ-Bench

Emotional Intelligence in LLMs: Evaluating the Nebula LLM on EQ-Bench and the Judgemark Task

EQ-Bench,这是一个评估大型语言模型情感智能的新基准测试。它通过让模型预测对话中角色的情感状态强度来评估模型的情感理解能力。论文提出了一种新的问题格式,使用GPT-4生成对话,并由作者确定问题和参考答案。

论文通过以下几个步骤解决这个问题:


论文进行了以下实验:

  1. EQ-Bench分数比较:比较了不同模型在EQ-Bench上的得分。

  2. 重复性测试:测试了基准测试的重复性,发现模型间的方差较小。

  3. 批判与分数修正的效果:比较了模型在批判和修正答案后得分的提升。

  4. SECEU EQ与EQ-Bench分数的比较:比较了SECEU EQ和EQ-Bench分数的分布和相关性。

  5. 与其他基准测试的相关性:计算了EQ-Bench分数与其他流行基准测试分数之间的皮尔逊相关系数。


Are Human Conversations Special? A Large Language Model Perspective

论文分析了LLMs在处理人类之间的自然对话(human-human)时注意力机制的变化,并探讨了这些模型在不同领域(如网络内容、代码和数学文本)中的表现,以突出对话数据的独特挑战。


论文主要内容包括:


定义注意力差异距离函数


论文通过以下几个方面来解决这个问题:


CodeMirage: Hallucinations in Code Generated by Large Language Models:评估代码生成的幻觉

本文首次尝试研究 LLM 生成的代码中的幻觉。首先介绍代码幻觉的定义和代码幻觉类型的综合分类。提出了第一个用于代码幻觉的基准 CodeMirage 数据集。


论文通过以下几个步骤来解决代码幻觉问题:

Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions

LLMs-as-a-judge 是一种最近流行的方法,它用 LLM 自动评估取代任务评估中的人类判断。但尚不清楚 LLM-as-a-judge 的评估是否仅基于提示中的指示进行评估,还是反映了其对类似于微调数据的高质量数据的偏好。为了研究提示 LLMs-as-a-judge 对 AI 判断与人类判断的一致性有多大影响,分析了几个 LLMs-as-a-judge 中关于评估目标质量的指示级别不断增加的提示。


论文通过以下几个步骤来解决这个问题:


Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives

它以布鲁姆分类学和知识空间理论的原则为指导,从能力、技能、知识的角度重新审视 LLM 任务。Re-TASK 框架提供了一种系统的方法,可以加深对特定领域任务的 LLM 的理解、评估和增强。它探讨了 LLM 的能力、它处理的知识和它应用的技能之间的相互作用,阐明了这些元素如何相互关联并影响任务性能。


总结

本文列举了一些LLM的评估方法,从各方面评估了模型的能力。

但是这些都只适用于通用模型的能力。对于下游任务模型来说,还是需要根据任务特点和任务数据收集测试数据进行评测。


模型评估存在的几个问题:

1、如何设计一个好的prompt,使得评估的能力完全符合任务要求?

2、如何保证judge模型评估准确?

这两个问题不可能完全解决,只能尽量使模型评估的结果接近任务所需。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5