链载Ai

标题: Anthropic 做 Multi Agent 系统的工程经验(下) [打印本页]

作者: 链载Ai    时间: 昨天 19:20
标题: Anthropic 做 Multi Agent 系统的工程经验(下)

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">这一篇写Anthropic的智能体评估、生产可靠性和工程挑战。

智能体评估

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">如何做智能体评估呢?传统的做法是“给定输入 X,必须走步骤 Y,才能得到正确输出 Z”。但是多智能体不能这样做,因为它没有固定唯一的、可预先写死的解题路径。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">评估什么

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;letter-spacing: 0.1em;color: rgb(63, 63, 63);">不要去检查是否走了预设的路径,而要判断是否有合理的过程和正确的结果。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;display: table;padding: 0px 0.2em;color: rgb(255, 255, 255);background: rgb(15, 76, 129);">从小样本集上就开始做评估

不要等数据量大时才开始做评估,在小样本的时候就开始做评估

LLM AS JUDGE

打分规则

Anthropic 制定了一些打分规则:

评分方式:LLM评判工具会根据上述标准对每个输出进行评分,评分范围为0.0到1.0,并给出通过或不通过的等级。

实验与优化

人工评估的重要性

  1. 1.自动化评估的局限性
    自动化评估工具(如LLM评判工具)虽然高效,但可能会遗漏一些边缘情况(edge cases)。这些情况包括:







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5