微信扫码
与创始人交个朋友
我要投稿
斯坦福大学的研究团队刚刚发布了一项爆炸性研究!
他们发现大语言模型(LLM)生成的研究创意比人类专家更新颖!
没想到AI不仅能写论文,现在连研究创意都能甩人类专家几条街了?
你可能会好奇这项研究到底是怎么做的?结果靠谱吗?
一起来扒一扒!
首先,研究团队可没有随便找几个人来充数。他们招募了49位NLP领域的顶尖专家,让这些大佬们在7个NLP主题上提出新颖的研究创意。
与此同时,他们还训练了一个LLM智能体,让它也在相同的7个主题上生成研究创意。
等等,别以为这就完了!
为了保证评审的公平性,研究团队又找来了79位专家,对所有的创意进行匿名评审。
这阵容,堪称是学术界的春晚啊!
说到这些"专家",可别以为是随便找的。
参与的研究人员来自36个不同的机构,大多数都是博士和博士后。他们的引用量中位数高达125,评审专家的引用量中位数更是达到了327!
可谓是学术界的梦之队啊!
为了确保人类和AI生成的创意都能涵盖所有必要细节,研究团队还制定了一个超级详细的创意模板。他们甚至为每个创意支付了300美元,还给出了1000美元的奖金给最佳的5个人类创意。
啧!学术界的"非诚勿扰" 啊!
为了避免写作风格影响评审结果,研究团队还用LLM对所有创意的写作风格进行了标准化处理。
下面是一个随机选择的LLM生成的创意示例,看起来是不是很专业?
79位专家评审总共提交了298份评审,每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准,包括新颖性、激动程度、可行性和预期效果等多个维度的评分和理由。
最后,研究团队对结果进行了三种不同的统计测试,考虑了所有可能的混淆因素。结果显示,LLM生成的创意在新颖性方面显著优于人类专家的创意。
这个结果,可以说是学术界的"李逵PK李鬼" 了!
除了人机对比,研究团队还发现了两个有趣的LLM特性:
看来AI 还是喜欢做个 "复读机" !
看来用AI 做评委还是不那么靠谱!
研究团队表示,他们在论文中还包含了更多定量和定性分析,包括人类和LLM创意的示例及相应的专家评审,专家自由文本评审的总结,以及他们对这个新兴研究方向如何取得进展的思考。
接下来,他们还计划招募更多专家参与研究的第二阶段,让专家们将AI和人类的创意实施为完整的项目,以便基于真实的研究成果进行更可靠的评估。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-08-13
2024-10-25
2024-06-17
2024-07-01