微信扫码
添加专属顾问
我要投稿
在学术界,同行评审制度 (peer review)对论文质量和科学研究公平性至关重要。然而,随着投稿数量激增,以及评审过程更加复杂,传统的评审模式正面临诸多挑战。如评审中的偏见(bias)及评审质量不稳定等。当前很多工作致力于分析并解决这些问题。传统分析方法 基于对真实数据的统计,不能很好地分析单个变量对评审结果的影响。另外,调研真实世界的审稿数据也意味着可能有隐私泄露等问题,如审稿人身份。我们提出了 AgentReview,这是首个基于大型语言模型(LLM)的同行评审模拟框架,有效解决了上述问题。通过AgentReview,我们能够在不使用真实评审数据的情况下,通过控制变量的对比实验,模拟同行评审过程,分析其中多种隐性因素及其对评审结果的影响。这不仅解决了数据隐私的问题,也为同行评审机制的设计提供了新的见解。同时,我们发现了很多有趣的现象,如评审者偏见的影响。这些现象同很多社会学理论相关,如altruistic fatigue(利他主义疲劳)和authority bias(权威偏见)等。文章已被EMNLP 2024 main track录用,评分为444。
同行评审(Peer Review)是学术出版的重要环节。许多研究 peer review 的工作基于真实评审数据,面临多个挑战:
图1: 我们提出了AgentReview,它可以灵活配置审稿流程各个部分,以进行受控实验。通过分离同行评审中的多个变量,从而深入研究这些变量对评审结果的影响。我们的研究结果与既有的社会学理论一致。
本研究引入了 AgentReview 框架,可根据需要灵活定制不同特征的审稿人(reviewer)、作者(author)、领域主席(area chair),以及评审机制(review mechanism),有助于系统地分析同行评审中各参与方的作用与影响。
【实验】我们使用了四届 ICLR 会议(ICLR2020 -- ICLR 2023)的真实文章作为输入,根据超过500篇paper生成了超过 53,800 份评审文档,包括review、metareview、author rebuttal、reviewer-AC discussions 等。由于评审的参与者均为LLM Agents,AgentReview无需使用真实评审数据即可获得统计显著性见解,保护了审稿人隐私。
我们的研究发现如下:
我们的贡献体现在三个方面:
AgentReview 框架提供了一个可扩展的平台,用于研究不同利益相关者和评审机制设计对评审结果的影响。框架遵循自然语言处理(NLP)和机器学习(ML)会议的常规评审流程。
审稿人 (Reviewer) 在同行评审中起核心作用,其评审质量由三个关键维度决定:投入度(Commitment)、意图(Intention)和专业性(Knowledgeability)。其中,投入度指审稿人的责任感;意图为评审动机,是否真诚帮助作者改进;专业性则衡量审稿人在论文主题领域的专业知识。基于这三个维度,我们将审稿人分为负责与不负责、善意与恶意、知识渊博与知识匮乏这几类。
作者 (Author) 提交论文,并在reviewer与area chair (AC) 讨论期间对初步评审意见提出rebuttal。尽管通常采用双盲评审制度,但作者仍可能通过预印本或社交媒体公开其作品,从而泄露身份。因此我们考虑了审稿人知悉作者身份和未知晓两种情况,以探讨匿名性对评审过程的影响。
领域主席 (Area Chair) 负责促进评审讨论、通过接收审稿人意见、作者rebuttal并结合自身意见做出最终决策。我们从领域主席的决策过程将其分为三类:
AgentReview采用结构化的五阶段流程模拟同行评审:
图2: 本文采用的五阶段审稿流程。实心黑箭头 -> 表示作者关系,蓝色虚线箭头 --> 表示可见性关系。
我们选择了ICLR 2020年至2023年的论文数据集,该数据集包括523篇论文(350篇拒稿、125篇poster、29篇spotlight和19篇oral),涵盖了不同质量层次的论文,以全面反映真实会议的投稿质量。
我们将没有任何特定角色设计的agent的数据作为baseline,这允许我们探究单变量对结果的影响。
我们观察每个阶段审稿人给出的评分,表1展示了我们设定的三位审稿人起始评分和最后的评分的平均分和标准差。可以看到在所有的设定下,审稿人给出的评分逐渐变得接近,特别是在负责和知识渊博的审稿人设定中尤为明显。这符合社会影响这一经典社会学理论。
表1:我们给出了审稿人与作者讨论前后的评审分数(图2中的Phase III)。Initial 和 Final分别表示审稿人在Phase I和Phase III的评分。
同时,我们注意到负责、善意、知识渊博的审稿人给出的评分通常要比不负责、恶意、知识匮乏的审稿人给出的分数要高;最终的分数普遍要比最初的分数有所提高。这说明了交流和讨论是非常重要的。
评审投入不足和从众心理会导致评审质量下降,表现为讨论后评审字数减少和评分降低,影响学术审查的可靠性。这两种现象和利他疲惫,群体思考心理学效应保持一致。
表3:正常审稿人被不负责任的审稿人逐步替换时的平均评分变化情况。‘#’表示各类评审人的数量。表的左侧显示正常审稿人的平均评分,右侧显示不负责任的审稿人的平均评分。+/− 表示rebuttal后平均评分的变化。
恶意审稿人会导致评分显著下降和放大论文缺陷,这两种现象符合社会冲突理论和回音室效应。另外在内容上,恶意审稿人更倾向于批评论文缺乏新颖性,表述不清晰这些缺陷。
图9:当我们在实验中改变一位评审人特质时的最终评分分布,改变包括他们的投入程度、意图和知识水平。
图3:当我们在实验逐步增加不负责(左)或恶意审稿人(右),论文评分的变化。
图4:接受或拒绝文章的理由的分布。
如图4所示,知识匮乏的审稿人提及 局限性讨论不足 的可能性高出24%,而知识渊博,专业性高的审稿人不仅关注基本方面,还提供了6.8%更多的实验验证批评,给予作者更具体有益的反馈。
我们使用BERTScore和 SentenceBERT 相似性量化评审与metareview的一致性,发现包容型领域主席与基线最一致,维护了评审完整性;而权威型一致性低,Cohen's Kappa系数仅0.266,一致性率69.8%,可能受个人偏见影响;从众型虽与评审意见重叠高,但缺乏独立判断,可能延续初始偏见。
图5:审稿人给出的review和领域主席AC给出的meta review之间的相似性。通过BERTScore(左)和Sentence embedding(右)两种方式衡量
为了分析作者身份对评审结果的影响,我们设置了不同数量的审稿人(1~3)知晓作者身份的情况,并调整了已知作者身份的论文比例(10%~30%)。具体而言,审稿人被告知某些论文的作者是该领域的著名且成就卓著的人物。我们基于真实的接受决定将论文分为两类:高质量和低质量。
对于低质量的论文,当1、2或3位审稿人知晓作者的知名身份时,论文接受的Jaccard指数分别为0.364、0.154和0.008,表明这些情况下论文决策与Basline相关性很低,存在显著偏差。而对于高质量论文,即便作者身份已知,观察到的接受变化并不明显。值得注意的是,论文决策的变化更多地受到知晓作者身份的审稿人数量的影响,而非已知作者身份的论文比例。
图6:当作者身份被知晓时,不同比例论文的最终决策相对于基线的比较。较小的Jaccard指数表明与基线的相关性较低。
我们探究了两种机制变体:1)取消两个讨论阶段,即去除第二和第三阶段;2)取消审稿人评分,审稿人不再给出评分,从而使领域主席的决策完全依赖于评审内容。
取消讨论阶段:取消讨论阶段,对最终决策的影响却出乎意料地小,与基线情形非常接近。这可能是因为锚定偏见的作用,即初次提交时形成的初步印象(“锚”)在很大程度上影响了reviewer的判断。另一个可能的原因是所有提交的论文都在rebuttal阶段得到了质量上的提升,因此各论文之间的相对位置几乎没有变化。
取消审稿人评分:当审稿人评分被移除后,决策过程发生了显著变化,导致决策结果出现分歧。与基线结果的比较显示,两者在接收论文集合上只有极小的重叠,Jaccard指数仅为0.20(见表2最后一行)。这意味着没有评分的情况下,决策结果与有评分的情况差异较大。
表2:各种实验变种的结果和基线实验的比较结果,使用了Jaccard指数(Jacc.)、Cohen's Kappa系数(κ)和百分比一致性(%Agree)进行衡量。Jacc. 指示实验变种和基线同时接受的论文集比例。最高和第二高的值以粗体和下划线突出显示。
同行评审机制目前仍然是最为有效的科学研究评价体系之一。通过使用大语言模型智能体对这一行为进行模拟,我们期待文章揭示的不同现象可以在今后被用于提高同行评审机制,让其变得更加可信、公开和公平。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
大模型技术创新驱动的AI生态和应用演进
2025-04-24
除了MCP我们还有什么?
2025-04-24
LLM 推理引擎之争:Ollama or vLLM ?
2025-04-24
刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦
2025-04-24
捕获AI的注意力:重复、幻觉、偏见背后的物理学
2025-04-24
Trae这次更新太炸了:上下文、MCP、智能体全上线,AI IDE全面觉醒!
2025-04-23
专题策划(下)| 如何实现大模型与行业的深度耦合?
2025-04-23
2025:LLM 超越 “Token 生成器” 的一年
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17