返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

人类完败!斯坦福新研究爆 AI 创意超人类专家

[复制链接]
链载Ai 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">斯坦福大学的研究团队刚刚发布了一项爆炸性研究!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">他们发现大语言模型(LLM)生成的研究创意比人类专家更新颖!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">没想到AI不仅能写论文,现在连研究创意都能甩人类专家几条街了?

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">你可能会好奇这项研究到底是怎么做的?结果靠谱吗?

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">一起来扒一扒!

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">首先,研究团队可没有随便找几个人来充数。他们招募了49位NLP领域的顶尖专家,让这些大佬们在7个NLP主题上提出新颖的研究创意。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">与此同时,他们还训练了一个LLM智能体,让它也在相同的7个主题上生成研究创意。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;font-size: 15px;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 0.75px;text-wrap: wrap;background-color: rgb(255, 255, 255);">等等,别以为这就完了!

为了保证评审的公平性,研究团队又找来了79位专家,对所有的创意进行匿名评审

这阵容,堪称是学术界的春晚啊!

说到这些"专家",可别以为是随便找的。

参与的研究人员来自36个不同的机构,大多数都是博士和博士后。他们的引用量中位数高达125,评审专家的引用量中位数更是达到了327

可谓是学术界的梦之队啊!

为了确保人类和AI生成的创意都能涵盖所有必要细节,研究团队还制定了一个超级详细的创意模板。他们甚至为每个创意支付了300美元,还给出了1000美元的奖金给最佳的5个人类创意。

啧!学术界的"非诚勿扰"啊!

为了避免写作风格影响评审结果,研究团队还用LLM对所有创意的写作风格进行了标准化处理

下面是一个随机选择的LLM生成的创意示例,看起来是不是很专业?

79位专家评审总共提交了298份评审,每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准,包括新颖性、激动程度、可行性和预期效果等多个维度的评分和理由。

最后,研究团队对结果进行了三种不同的统计测试,考虑了所有可能的混淆因素。结果显示,LLM生成的创意在新颖性方面显著优于人类专家的创意

这个结果,可以说是学术界的"李逵PK李鬼"了!

除了人机对比,研究团队还发现了两个有趣的LLM特性:

  1. LLM在生成创意时缺乏多样性。即使被明确告知不要重复,它们还是很快就开始重复之前生成的创意。

看来AI 还是喜欢做个"复读机"

  1. LLM还无法可靠地评估创意。当研究团队用之前的自动LLM评审员与人类专家评审进行对比时,发现所有LLM评审员都与人类判断的一致性很低。

看来用AI 做评委还是不那么靠谱!

研究团队表示,他们在论文中还包含了更多定量和定性分析,包括人类和LLM创意的示例及相应的专家评审,专家自由文本评审的总结,以及他们对这个新兴研究方向如何取得进展的思考。

接下来,他们还计划招募更多专家参与研究的第二阶段,让专家们将AI和人类的创意实施为完整的项目,以便基于真实的研究成果进行更可靠的评估


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ