我要投稿

人工智能大模型技术在教育考试全题型阅卷中的应用

发布日期：2024-08-21 21:52:56 浏览次数： 3496 作者：教育测量与评价杂志

【摘要】随着数字技术的不断发展，教育考试阅卷工作正迈向智能化时代，AI大模型技术在阅卷中的应用探索已成为研究热点和发展重点。汇隽可之将其在认知智能生成式大语言模型领域研发的AI核心技术应用于考试阅卷工作，经过3年的实践与完善，该系统在AI评卷速度、辅助定标成效、AI评分质量等方面均得到有效验证。目前，AI大模型技术在教育考试全题型阅卷工作中已成功实现辅助评分功能，未来有望在各类考试中逐步替代人工，最终实现AI全自动评分。

【关键词】人工智能；考试阅卷；自然语言处理；全题型自动评卷；分析聚类；辅助质检

一、问题提出

随着图文识别、自然语言理解、智能评测、智能理解技术的突破，人工智能（artificial intelligence，AI）在我国教育考试阅卷中的应用探索也受到了越来越广泛的关注。2020年，《科技部关于发布科技创新2030—“新一代人工智能”重大项目2020年度项目申报指南的通知》明确规划了在2030年要实现的22个研究任务，其中就涵盖了要“开展多学科多题型纸笔考试和作业的智能阅卷技术研发”“突破面向纸笔考试及作业的复杂版面分析、手写图文及公式识别、作文自动评分、文科答案语义理解评分、理科解题步骤分析评分及抄袭检测等智能阅卷关键技术”。随着这些研究任务的提出，我国教育考试阅卷领域正迈向智能化时代，AI大模型技术在阅卷中的应用探索已成为研究的热点和未来发展的重点。

当前，国内外众多研究机构以及公司团体针对AI大模型技术在教育考试中的应用开展了丰富的理论及实践应用研究，包括诸如“基于卷积神经网络开展填空题的识别与批改”^[1]“使用人工特征方案和深度学习方案开展语文、英语作文等主观题目智能批改”^[2-3]等理论研究，以及大量基于前人理论和实践成果而开展的诸如“智能网阅系统设计”^[3]“人工智能技术在考试命题、英语听说考试、纸笔考试评卷和标准化考场建设中的应用”^[4]等实践性应用研究。纵观上述研究，不乏在教育考试特定科目或题目类型批改前提下具备较强落地性和可操作性的成果，但综合来看，当前研究仍缺乏在全科目、全题型批改前提下的普适性理论和技术解决方案，缺乏具备可操作性和可量化的AI评卷质量评价标准。

本研究以汇隽可之（深圳）人工智能科技有限公司多年来在考试应用和AI评卷服务过程中积累的研究成果、实践经验、数据实力等为基础，探索未来“全学科、全题型”前提条件下AI全自动评分的可行性方向，及其具备可行性、可量化性的AI评卷质量评价标准体系。

二、AI大模型技术应用于考试评分的必要性与可行性

人工评分现状呼唤AI大模型技术

传统的人工评卷方式存在人力资源不足、评分效率低、评分标准不统一、主观性强、误差难以控制等问题。随着近些年来网阅系统和网上评分模式的普及，人工评分的公平性和效率得到极大提升，同时从机制上将评分误差波动控制在一个相对可接受的范围内。^[5]首先，网上阅卷系统通过对试卷进行扫描、图像切割、随机分发，保障了阅卷评分过程的主观公平性；其次，网上评分模式采用工业化的流水线作业方式，使得过程性的操作得到简化，提高了人工评分的效率；最后，网上评分模式从机制层面优化和重构了阅卷流程，使得评分的误差范围波动更有规律可循。

但现有的人工评分模式仍存在一些问题，亟须AI大模型技术赋能解决。一是人工评分的组织工作和操作流程仍有待优化。比如，阅卷工作的人力资源不足，尤其是在一些非高利害考试中缺乏足够的评卷教师；阅卷系统只解决了随机分发的公平性问题，但个别评卷教师在理解评分标准时出现偏差，导致具体评卷时存在评分标准不一致的情况。二是人工评分误差范围仍存在波动性。^[5-7]评分误差的产生可以分为系统化误差和操作性误差。首先，当人工作为评分主体系统时，人类个体之间的认知差异以及个体本身情绪、疲劳度等影响因素的波动都会造成评分的系统化误差以及误差波动；其次，受评分工作流程和操作规范性的限制，在评分的过程中也有可能产生操作性误差，这种误差是没有规律可循的。因此，传统的人工评分误差波动范围往往会随机变化，没有特定规律；网上阅卷虽然降低了操作性误差，使得评分的误差波动范围变得有规律可循，但误差的波动仍然存在。三是人工评分的准确性仍有待提升。^[8]首先，评卷教师长时间评卷会因注意力集中度下降、疲劳等因素影响，产生评卷误差；其次，评卷教师无法完全排除评卷时的个人主观性；最后，考生作答笔迹潦草，会影响人工批阅的评判。（影响人工评分准确性的因素及其影响程度详见表1）

表1 在各种题目类型中影响人工评分准确性

的因素及其影响程度

总之，人工评分困境呼唤AI大模型技术的引入和应用。利用AI大模型技术的优势，我们可以在教育评估领域实现更为高效、准确和公正的评分，进而推动教育事业的持续发展。

AI大模型技术的快速发展为其应用于考试评分夯实了基础

目前，图文识别、自然语言理解、智能评测、智能理解等AI大模型技术在教学练评测等多个场景下都有了广泛的应用。近年来，以ChatGPT为代表的一众生成式大模型，成为AI技术创新的焦点。AI大模型技术已成为智能时代各行各业实现智能化转型升级的重要抓手和不可或缺的技术工具。在教育考试行业，基于大数据处理技术、计算机视觉检测能力、中英文与数学公式识别能力、对题目和学生的深度自然语言理解能力、海量题库与语料，以及计算推理引擎能力，将AI大模型技术应用于智能辅助阅卷，可以从考生试卷图片、考试试题、考生作答解法等多个维度对试卷评分进行智能化处理，实现大规模、高效且准确的阅卷，降低人工评卷可能出现的主观性和误差，提升考试的阅卷效率。

（1）识别准确率提高

从技术发展角度来看，借助深度学习技术，AI大模型技术对复杂手写字体，以及中文、英文、数学符号已经能进行准确识别。深度学习技术和卷积神经网络（convolutional neural network，CNN）的发展，使得计算机可以从大量数据中学习到字符的复杂特征，并且能够识别并处理各种不同的书写风格和手写字体。深度学习技术采用了多层神经网络结构，可以对输入的数据进行多层次的特征抽取。在手写字符识别中，深度学习可以自动学习手写字符的笔画、结构、形态等复杂特征。例如，CNN特别适合处理图像数据。通过卷积操作，它可以自动提取图像中的局部特征，比如笔画的方向、宽度、形状等。此外，CNN还可以处理不同大小和位置的字符，使得计算机可以识别各种不同的手写字体和书写风格。此外，为了提高识别的准确率，还有一些技术手段被采用，比如数据增强、迁移学习、混合模型等。数据增强可以通过对原始图像进行旋转、平移、缩放等操作，增加数据的数量和多样性。迁移学习可以将预训练的模型参数迁移到新的任务上，以加快训练速度和提高识别准确率。混合模型则可以将不同模型的优点结合起来，进一步提高识别性能。

（2）具有出色的语言理解能力

首先，AI大模型技术能够出色地完成文本聚类任务。通过深入分析文本的语义信息和语法结构，它可以理解文本的内在含义，并识别出其中的主题、概念及关系。其次，AI大模型技术具备卓越的特征提取能力。它能够从文本中提取关键特征，有效表达文本的内容和主题，为后续的聚类分析提供重要依据。此外，它还采用了一系列先进的聚类算法。这些算法主要基于机器学习、深度学习等技术，能够自动地根据文本特征和语义信息进行聚类，并不断优化和调整聚类结果，确保聚类的准确性和有效性。这种自动化的聚类过程大大提高了文本的组织和导航能力。最后，AI大模型技术的大数据处理能力也为文本聚类提供了有力支持。它能够快速处理和分析大规模的文本数据，从而自动、准确地完成文本聚类任务。

（3）具备强大的计算推理能力

AI大模型技术具备全局检索能力。通过深度学习和自然语言处理等技术，它可以快速处理大量数据，从中提取关键信息并做出准确预测。这使得AI智能具备跨数据源整合的能力，能够整合来自不同数据源的信息，包括结构化和非结构化数据。这样一来，AI智能就能全面了解情况，把握全局数据，给出相关的数据分析结果。

（4）具备学习和模仿人类的能力

AI大模型技术可以通过学习和模仿人工批阅过程，分析学习人工评分细则，模仿人工批阅。同时，由于避免了人工批阅过程中可能产生的诸如疲劳、情绪、过于主观等问题，AI智能在评分过程中可以做到全程标准统一，高效且公平地完成评分工作。

使用AI大模型技术进行考试评分的优势

由于AI大模型技术在图像识别、文本聚类、考生作答评分及全局检索等方面的应用已经取得显著进展，在阅卷流程中运用该技术已具备可行性。

（1）光学标记识别（OMR）技术已经得到广泛应用

对于选择题，在OMR技术辅助下，现在的网上阅卷系统已经能够实现自动判分。^[9-10]由于答题卡已经设计了有利于机器扫描及识别的填涂标识区域，系统只需通过扫描答题卡上的特定位置的选择题/判断题的填涂信息即可自动识别每一道题的考生作答，并与标准答案对比后给出相应分数。这种基于光学标记识别填空题等考生作答的流程也被称为OMR流程。目前，选择题采用OMR流程通过机器完成全部评卷，同时采用人工核查风险数据的方式，大幅度减少了人工的工作量，评卷质量甚至超过了人工评卷的准确率。

（2）采用AI辅助评分能提高评分的公正性

AI辅助评分是一种先进技术，它综合利用了各种智能技术，对考生答卷进行识别、处理、分析、评分。AI辅助评分的应用，不仅提高了评卷效率，还降低了人工评卷中可能出现的主观性误差和评分错误的频率。首先，AI辅助评分系统可以稳定、高效、准确地辅助人工进行评分。在传统的评卷过程中，人工评卷需要花费大量的时间和精力，而且由于人的主观性，评分结果也有可能存在一定误差。AI辅助评分系统则可以通过对考生答卷进行识别和分析，快速、准确地给出评分结果，提高了评卷效率。其次，AI辅助评分系统可以与人工评分结果进行对比分析。该系统可以自动生成评分报告，对每个考生的答卷进行详细分析和比较，找出人工评分中可能出现的主观性误差和评分错误。这不仅有助于提高评分的公正性，也有助于提升考试的公平性。此外，AI辅助评分系统还可以根据考试科目的不同，自动调整评分的标准和规则。该系统可以根据历史数据和算法，对每个考生的答卷进行个性化评分，使得评分更加准确、公正。

（3）AI智能评分本身已具备较高的基础准确率

AI智能评分在非填空题题型上的评分准确率甚至超过了人工评分。这主要得益于AI大模型技术的深度学习能力和大数据分析能力，这两种技术能力使其能够从大量数据中提取有用信息，并进行准确判断和评分。除了在评分效果上具有优势，AI智能还具备主动学习的能力。机器通过与环境进行交互，自主地探索和发现新的知识和技能。在AI大模型技术的应用中，主动学习技术可以帮助模型自主地发现置信率较低的数据类型，并通过与人交互获取数据输入，进一步优化和完善模型的评分效果。这样做既可以通过人工评分的少量数据进行微调，又可以自主发现置信率较低的数据类型，通过与人交互获取数据，不断提升模型的应用效果。

（4）AI大模型技术可以在创新模式下通过人工的辅助产出更准确的评分结果

结合AI大模型技术的特性，我们有望开发出更高效、更准确的评卷模式。结合专家的专业知识和经验，以及AI智能精准处理大量数据的能力，AI大模型技术可以作为评卷主导，自主完成定标、评卷、质检等流程，专家只需要对AI大模型技术进行指导、训练与监督即可。这不仅减轻了评卷教师的负担，还极大地提高了评卷效率、评卷质量。从产出维度来看，AI大模型技术有潜力对评分任务输出相应的置信度等指标。比如在进行图像识别时，AI大模型技术可以给出识别考生手写作答的置信度，该数据可以反映机器认可考生书写字符为对应字符的可信度。又如在进行评分时，AI大模型技术可以对考生作答的评分给出一个评分置信度，即通过机器自身判断给出的评分是否具有可信度。这些指标有助于建立一套考生作答有效性的判定标准，对书写潦草导致作答存在歧义、作答过于主观导致主观性存在歧义等情况有了一个客观的可量化的评价标准。未来或许也可以将这些标准作为考试阅卷的判定标准。

三、汇隽可之AI大模型技术在考试评分中应用的模式创新

汇隽可之聚焦AI评分的目标和理念

可之（宁波）人工智能科技有限公司（以下简称“可之科技”）是全球为数不多的拥有独立自主研发的深度强化学习框架和可解释人工智能核心技术的公司之一。该公司特别注重AI大语言模型在考试阅卷工作中的应用，以推动考试行业整体服务质量和智能化水平的升级换代、引领考试行业智能化跨越发展为目标，同时，秉承为落实国家立德树人根本任务提供坚实可靠技术保障的理念。汇隽可之（深圳）人工智能科技有限公司（以下简称“汇隽可之”）则由深圳市汇隽研科技有限公司与可之（宁波）人工智能科技有限公司强强联合、共同创立。当前，汇隽可之已在我国部分省市开展了AI大语言模型辅助定标和辅助评卷的试点应用，不仅提高了评卷效率、节约了大量人力物力，还提高了评卷的准确性和公正性，大大提升了教育评价的科学性和公信力，获得用户的高度认可和好评。未来，汇隽可之还将积极推动AI大模型技术在教学、考试和评价领域更为广泛的深层次应用，包括实现AI自动评卷、自适应命题、智能测评、考试预测、能力模型构建、个性化反馈、学习路径推荐等，以此为教育教学和考试评价提供更高效、更精准、更个性化的服务，为推动教育公平和教育教学创新做出更大的贡献。

汇隽可之创造AI评分新模式

（1）评分模式的创新

传统的网上阅卷流程一般如图1 所示。

图1 传统网上阅卷的标准化流程^[9]

以AI大模型技术为主导的评卷模式也参考了网上阅卷模式。首先，通过合理的定标手段，与专家组高效互动，让评卷系统学习评分标准，实现公平公正的评分。^[10]其次，系统进行阅卷，并将阅卷中的必要信息展示给专家组及考试组织人员，方便他们进行实时监控和干预；对于系统无法评阅的试卷，用合理的方式引入专家组或评卷组高效地参与打分。最后，系统应用合理的质检方式对评卷最终质量做确认。在新的模式之下，利用历年评卷数据，运用AI深度学习技术训练识别模型和评分引擎，用当前评卷数据训练调整模型参数，从而达到识别精准、评分准确、过程可控。

网上阅卷按照正式评卷的时间及关键点可分为评卷前、评卷中、评卷后3个环节，AI大模型技术应根据具体场景有选择地应用于全流程。

AI大模型技术运用于评卷前主要包括智能挑卷与两个应用场景。智能挑卷指利用汇隽可之AI能力为网上阅卷提供答题归类和机器评分参考，在各工作流程关键节点前利用机器算力从全数据中快速抽取答题卡。应用场景1为评卷专家按不同条件组合查询智能挑卷库中的答题卡，掌握整体答题情况，据此制定评分细则。应用场景2为从智能挑卷库中选取典型答题样卷作为培训卷、考核卷、样卷，确保评卷教师在正式评卷前熟悉所有答题解法。

AI大模型技术运用于评卷中主要包括智能派卷和智能提醒。智能派卷主要是在各工作流程关键节点前，利用汇隽可之AI大模型技术为网上阅卷提供答题卡归类和机器评分参考。智能评卷系统可参考机器评分均衡派卷，也可将一定范围内同一种解题方法的答题卡优先派卷。智能提醒主要是通过深度学习进行机器评分推送，在评卷时进行机器评与人工评的比较，机器评分超过设定阈值会提醒评卷教师再次确认。

AI大模型技术运用于评卷后主要为事后辅助质检，包括空白卷检测、雷同检测、机评分复核。空白卷检测为根据识别转存的结果判断考生是否缺考。雷同检测为根据答题内容的相似度进行范文雷同检测、题干雷同检测、两两雷同检测。机评分复核为评卷后对机器评分和人工评分进行比对，如超过设定的差值范围，系统会推送给评卷专家确认。

通过在教育考试流程中并行使用AI大模型技术，我们可以深入探究其作用，从而对AI智能在教育考试领域的使用形成清晰认识。

（2）模型能力的精进

AI大模型技术可以让考试阅卷工作提速升级，但从实践过程来看，复杂手写（见图2）识别准确率、主观题型阅评等问题始终是业界亟待解决的难点、堵点。

图2 考生手写题目作答版面截图

研究发现，考生的作答通常存在如下问题[11]：图像版面结构复杂；答题内容存在大量删除、涂改、句中字符插入，且答题规范不统一；文本行字符存在倾斜、弯曲、交叉、粘连的情况；考生作答内容涵盖中文、英文、公式等中的特殊符号。

如何准确识别考生作答，关系到AI评分的准确度。为了解决这些技术难点，可之科技采取了以下技术路线。

①采用深度学习中的卷积神经网络（CNN）进行图像识别

通过大量的标注数据训练，神经网络能够准确识别答题卡上的各种字符和排版结构。针对答题内容存在大量删除、涂改、句中字符插入等复杂情况，AI大模型技术可以通过图像处理技术进行预处理，提高识别的准确性。CNN是一种深度学习模型，专门用于处理具有类似网格结构的数据。它在计算机视觉领域取得了巨大成功，广泛应用于图像分类、目标检测、人脸识别等任务，主要由输入层、卷积层、池化层、全连接层等组成。输入层负责接收原始数据，例如图像像素值。卷积层是CNN的核心部分，它通过卷积运算对输入数据进行特征提取。卷积运算是一种线性运算，通过将输入数据与一组可学习的滤波器（或称为卷积核）进行卷积，提取出输入数据的局部特征。池化层通常位于卷积层之后，用于降低数据的维度和计算复杂度，同时保留数据的重要特征。常见的池化操作包括最大池化、平均池化等。全连接层主要是对提取出的特征进行分类或回归，用于预测识别考生手写字符等。

②用自然语言处理技术进行文本分析

自然语言处理（natural language processing，NLP），是一门研究自然语言数据的科学，包括语言生成、理解、分析和解释等。它是AI领域的一个重要分支，旨在通过计算机技术和算法实现自然语言的有效处理和应用。随着AI大模型技术的不断发展，NLP的应用也越来越广泛，包括但不限于机器翻译、问答系统、信息抽取、文本生成等。比如目前比较热门的Transformer模型就是近年来深度学习领域的一个重要进展，Transformer使用了自注意力机制（self attention）让模型可以关注输入序列中不同位置的数据以进行更好的预测。现该技术已广泛应用于自然语言处理任务中。

通常来说，考生作答包括公式、文本符号，以及主观表达。评卷系统利用NLP技术，可以很好地识别出考生作答图像内容数据，并将其处理为机器容易理解的结构化数据（如向量或通用符号等），这使得机器智能评卷成为可能。比如，通过分词、词性标注、命名实体识别等步骤，将考生作答内容转化为结构化数据；采用字符识别和字符串处理技术，对中文、英文、公式等的特殊符号进行处理，确保评卷的准确性。

③设计了一套智能评卷算法

为解决评卷过程的稳定性问题，可通过优化算法和调整评分标准，使机器评分更加准确。但设计智能评卷算法是一个复杂而细致的过程，它涉及对识别后的数据如何进行深入的分析和处理。在这个过程中，算法需要将识别后的数据与预先设定的评分标准进行匹配，从而确定考生的得分。

合理、智能的评卷算法对于最终的AI评分至关重要。这是因为评卷算法是AI智能在教育领域应用的核心技术之一，其准确性和稳定性直接影响评分的公正性和准确性。因此，我们需要不断优化和改进评卷算法，提高其准确性和稳定性，比如对评分标准进行细化和调整、对算法进行测试和验证等。在评卷过程中，评卷算法需要与评卷教师的评分明细相契合。这是因为评分规则比较复杂，仅仅准确识别考生作答并不足以准确给分。因此，我们需要确保算法能够理解并应用评分规则，从而给出准确的分数。

④增强AI智能系统的保密性

为了保证评卷的公正性，汇隽可之AI智能系统严格遵循保密原则，不对考生信息进行任何处理和存储。在评卷过程中，AI智能系统只会处理考生的答题内容，不会涉及任何个人信息。这样可以确保评卷的公正性，避免因个人信息泄露而导致的任何不公平现象。

⑤加强算法的持续优化性

不断优化算法和提高识别准确率，并通过试点项目收集反馈数据，可进一步改进智能评卷系统。汇隽可之建立的算法流程如图3所示。

图3 汇隽可之AI文本图像特征

提取、增强、识别算法流程

该流程依托汇隽可之先进算法，首先通过运用卷积神经网络^[1]对考生答题文本图像进行多尺度特征提取，结合空间注意力机制实现自适应多尺度特征融合；其次计算各个文本区域的概率分布和阈值分布，进一步对图像及语义特征进行提取；最后借助FPN、RNN、Transformer等技术对特征进行增强，从而实现高精度考生手写识别。FPN（feature pyramid network）是用于目标检测的神经网络结构。在计算机视觉中，目标检测的任务是识别并定位图像中的物体。FPN通过构建多个不同分辨率的特征图来提高检测性能。具体来说，FPN结合了自上而下（top-down）和自下而上（bottom-up）的路径，从低分辨率到高分辨率逐步捕获目标信息。这种结构使得FPN能够同时获得语义信息和位置信息，从而更准确地检测目标。RNN（recurrent neural network）是用于处理序列数据的神经网络结构，特别适合于处理时间序列数据，如文本、语音等。RNN的核心特点是具有记忆功能，能够将前一个时间步的信息传递到下一个时间步。这种记忆功能使得RNN能够处理变长的序列，并且在处理序列数据时具有很好的泛化能力。然而，传统的RNN在处理长序列时可能遇到梯度消失或梯度爆炸的问题。为了解决这些问题，研究者们提出了许多改进的RNN变体，如LSTM（long shortterm memory）和GRU（gated recurrent unit）。Transformer是一种基于自注意力机制的神经网络结构，最初是为了解决自然语言处理任务而提出的。与传统的循环神经网络（RNN）或卷积神经网络（CNN）不同的是，Transformer使用了自注意力机制来计算输入序列中每个位置数据之间的关系。这种机制允许模型捕捉长距离依赖关系，而不需要像RNN那样逐个处理时间步。Transformer主要由两部分组成，包括编码器（encoder）和解码器（decoder）。编码器负责将输入序列转换为一组上下文向量，而解码器则使用这些上下文向量来生成输出序列。由于其出色的性能和高效的计算能力，Transformer已经成为许多NLP任务的标准模型，如机器翻译、文本分类等。

AI大模型技术对于理解考生作答内容也尤为重要。汇隽可之AI深度文本特征提取、聚类算法流程详见图4。

图4 汇隽可之AI深度文本特征提取、聚类算法流程

汇隽可之AI系统通过对识别出来的考生文本使用提前训练好的深度神经网络（deep neural networks，DNN）进行推理分析，得到考生作答的特征向量。通过AI聚类算法，我们可以把考生的作答进行分类及摘要，并统计出相关频率、其他典型特征、常用作答等内容，以实现对考生作答的聚类，从而发现考生多种作答的可能性。

我们使用DNN技术分析用户的语义信息，并采用汇隽可之自主研发的聚类算法，高效地对考生答案进行分类。DNN是一种深度学习模型。它由多层神经元组成，每层与相邻层之间都有连接。这种网络架构通常用于处理复杂的非线性问题，例如图像和语音识别、自然语言处理等。在DNN中，每个神经元都执行一个简单的计算操作，并通过激活函数进行输出传递。通常，许多层被堆叠在一起以形成深度网络，网络可以通过训练数据进行训练来学习输入数据的特征。DNN可以通过反向传播算法进行训练，该算法可以计算网络中每个参数的梯度，并使用梯度下降算法将它们更新到使成本最小化的值。通过对考生的文本进行深度神经网络的推理分析，我们可以深入了解考生的作答特征。这些特征不仅反映了考生的知识水平和思维能力，还揭示了他们的学习风格和学习习惯。这样的分析有助于更加准确地评估考生的表现，为教育工作者提供有价值的参考信息。

同时，汇隽可之AI聚类算法的应用使得我们可以对大量考生的作答进行高效分类和摘要。通过统计各类别的相关频率、典型特征和常用作答等内容，我们可以深入了解考生作答的普遍特点和趋势，发现潜在的问题和挑战，为教育改革提供有针对性的建议。

此外，通过对考生作答的聚类分析，我们还可以发现考生之间的差异性和多样性。这种多样性是每个学生独特个性和潜力的体现，也是人们关注学生个体差异、提供个性化教育的重要依据。

（3）在实际考试中应用AI评分模式以及识别和评分模型进行实验、采集指标

汇隽可之在实际考试中应用AI评分模式已有3年。第一年采集填空题指标，进行解答题的辅助评卷验证；第二年提升解答题辅助评卷验证水平和评分验证水平；第三年基于大规模实践验证，提升解答题评分能力。

验证方法主要包括：统计双人评一致率等指标，并对这些指标进行多维度分析，包括指标的分布区间、分布状态，以及指标间的相关性等；采用汇隽可之AI辅助评卷系统比对全学科全题型的历史评卷数据，评估人机一致率；对比人机一致率与双人评一致率，进行逐题型的可用性分析。

四、AI大模型技术评分实践应用中具有的技术优势及其发展空间

汇隽可之AI大模型技术的处理速度

经过实际测量，8块NVIDIA 3090显卡可以在4天内完成35万考生210万张答题图片的识别及批阅。而如果采用人工来批阅这35万考生的试卷，则需要大量人力才能在4天内完成。从这个角度来看，汇隽可之AI大模型技术的处理速度远远大于人工的批阅速度，体现了AI大模型技术在试卷批阅过程中的效益与价值。

汇隽可之AI聚类分析

在人工制定评分细则环节，机器通过识别、智能聚类，可以从大量的数据中分析出题目的诸多常见最终解与常见的步骤供专家参考。

以表2、表3为例，可以看到汇隽可之对该小题的考生作答给出多个不同的作答最终解、常见的解题步骤及其出现频率。可见，AI的智能聚类分析特性具备如下优势：一是利用AI统计与聚类的数据，可提高抽样效率，完善评分细则的制定；二是利用分类数据可降低评卷教师的误差，提升评卷质量。

表2 填空类题型学生常见作答结果

聚类统计结果示例

表3 解答类题型学生场景作答步骤

聚类统计结果示例

汇隽可之人机一致率统计

（1）评估评卷质量的指标体系

由于人工评分和AI评分都不可能达到100%的准确率，所以需要建立一套指标来评价评卷质量。教育考试对评卷质量的评估通常围绕以下几个维度进行。一是公正性。考试的评分应该公平无偏，并且独立于考生的个人信息比如性别、种族、社会经济背景等之外。二是准确性。评卷教师应遵循评分标准或评分指南的指导，确保每一个考生的试卷都能被准确地评判。三是稳定性。评卷教师应该在整个评卷过程中保持对每一个考题的理解和评价一致，避免产生偏差。

在传统的教育考试中，为确保考试的评卷质量，通常采用双人评机制来弥补人评批阅错误的缺陷。^[5，7]双人评机制是一种在多个领域内常被使用的评卷机制，前提是两个人或两个团队独立地进行评卷。这个机制有助于获得更全面、更准确、更客观的评卷结果。双人评结果不一致的试卷，会交由专家进行三评仲裁，以此来修正人评误差。因此，在双人评机制下自然会产生双人评一致率（即三评率）这一指标，即：双人评一致率=双人评打分差值在误差值以内的数量/全部评卷数量。该指标天然反映了人工评分的质量。

建议沿用该指标作为评卷质量的监测指标。若AI替代其中一人评，可采用同样的指标监测AI评卷质量。这一指标为人机一致率，即人机一致率=人评与机评差值在误差值以内的数量/全部评卷数量。这些指标均需按照小题维度逐题进行统计。

本研究采取人机一致率作为监测指标，并通过实践验证该指标的可行性和有效性，即该指标可在评卷过程中被高效采集并反映评卷过程及其结果的公正性、准确性、稳定性。

（2）AI大模型技术可替代一评的条件标准

一般而言，当人机一致率接近或超过双人评一致率时，可以认为AI大模型技术具备替代人工一轮评价的必要条件。但需要一个合理的方式来得出一个双人评量化的阈值指标。这个阈值指标可以因学科、题型而异，如果人机一致率超过这个阈值指标，即可认为AI大模型技术在该学科的某个题型下可以替代人工一轮评价。例如，如果若干次考试中，数学填空题的双人评一致率均为99%，那么对于数学填空类题型双人评一致率阈值即为99%；又如，某学科问答题多次考试后双人评一致率均为90%，那么对于该学科问答类题型的双人评一致率阈值则为90%。（详见图5）

图5 逐题阈值内小题最高一致率比较

本研究通过在学业水平考试等中采集相关数据测算相关指标，最终得出了一套可信的阈值指标及评价标准。该阈值指标因不同学科、不同题型、不同评分标准而异，已经内置于汇隽可之系统中，可支持基于历史数据的初始化配置和定制化调整。人工智能的实际表现均与双人评一致率指标进行对比，若高于该指标则代表机器评分质量达标，低于该指标则代表机器评分质量有待提升。

（3）实际表现

对比数学科目的汇隽可之AI自动评卷分数与人工评卷分数，其整体表现统计如表4所示。

表4 在某次数学科目考试中填空题及非填空题

AI评分人机一致率的整体表现

经逐题比对，汇隽可之AI自动评卷系统在填空题方面的准确率达到了99%以上，展现出较高的人机一致性。因此，可以认为在填空题领域，机器评卷的准确性较高。同时，填空题小题一致性的稳定性在99%以上，说明AI自动评卷系统的稳定性良好。鉴于其在填空题方面的准确性和稳定性，可以认为其能高质量地完成填空题的评卷工作。进一步观察非填空题领域，发现在4分阈值内，AI自动评卷系统的人机一致性可以达到95%以上，1分阈值内也有部分题型的一致性达到了90%以上。这表明AI自动评卷系统在非填空题的批阅方面具有一定的可行性。

从表4、表5的数据来看，汇隽可之AI大模型技术在填空题领域的评卷准确性和稳定性可以在大规模考试中达到完全替代人工评分的技术标准，在大型考试非填空题领域的评卷也可以借助人工辅助来实现机器主导评分，但要实现AI大模型技术在非填空题领域完全替代人工评分，仍需进一步研究和优化。

表5 在某数学科目考试中填空题及非填空题AI评分

人机一致率逐题表现统计

为了提高AI大模型技术在非填空题领域的评卷能力，首先，对AI算法进行优化，提高其在非填空题类型上的识别和判断能力；其次，通过对训练数据的丰富和拓展，提高AI对于非填空题的泛化能力；最后，结合人工评卷的经验，对AI进行有针对性的训练，使其在非填空题领域的评卷准确性得到进一步提升。总的来说，AI大模型技术在阅卷领域的应用已取得一定成果，但在非填空题方面的应用仍有很大的提升空间。通过不断地优化算法、拓展数据和开展有针对性的训练，相信其未来能够进一步提高在非填空题领域的评卷准确性。

复核率统计

在质检核查环节，汇隽可之AI大模型技术识别出部分存在批阅问题的试卷，并将之提交给人工进行审核。经过人工审核后，部分试卷的分值得以修正。表6是复核修正数据的统计。

表6 在某数学科目考试中填空题及非填空题人工

评分与AI评分复核率逐题表现统计

根据表6统计的复核修正数据，可以明显看出，汇隽可之AI大模型技术在处理大批量题目时，能有效识别填空题和非填空题的批阅异常情况。在提交数据后，人工也进行了相应修正，这充分论证了AI大模型技术在题目批阅方面具有较高的准确性。进一步分析，AI大模型技术在识别填空题和非填空题的批阅异常情况时，表现出了较高的灵敏度和精确度。这主要得益于智能算法对大量数据的学习和理解，使其在面对各类题型时，能够准确判断并找出异常情况。同时，AI大模型技术能结合题目的特点和答案的合理性进行判断，从而保证了批阅结果的公正性和准确性。值得注意的是，虽然AI大模型技术在题目批阅方面具有较高的准确性，但仍存在一定程度的误差。这可能是由训练数据的局限性导致的，也可能是因为AI大模型技术在理解某些复杂题目时，仍难以完全准确地把握答案的内涵。然而，随着技术的不断发展和优化，这些误差将会逐渐减小，AI大模型技术在题目批阅方面的应用也将越来越成熟。

其他辅助方法

此次汇隽可之AI大模型技术还进行了其他相关的评卷过程的核查分析，由于这些过程已经有大量文献及实证进行研究，所以此处仅作简述，不再展开讨论。

（1）空白卷检测

空白卷检测是指根据识别转存的结果判断考生是否缺考。如果考生的试卷上没有填写任何答案，发送给网评系统结合其他题块综合判断，就可以确定考生缺考，系统会在考试结束后将该情况记录在案。

（2）雷同检测

可将答题内容与范文库、题干、其他考生作答进行相似度比较，即范文雷同检测、题干雷同检测、两两雷同检测。雷同检测通过对识别文本、图像等数据进行比较，可以检测出其中的相似部分，从而判断是否存在抄袭、剽窃等不良行为，维护考试的公平性。在进行雷同检测时，需要选择合适的算法和技术，以确保检测结果的准确性和可靠性。同时，也需对检测结果进行合理的解释和应用，避免误判和过度解读。

（3）抄袭题干分析

抄袭题干分析是指在作文题型中，机器智能查找考生抄写试卷范文作为答题内容的情况。通过对试卷上的文本进行分析，找出与范文相似的部分，从而判断考生是否抄袭，避免教师误判。在实际实施项目中，机器发现了400多例与题干范文相似度超过90%的作文答卷，然后通过人工二次审核这些答卷，其中一部分答卷被判定为抄袭题干。

五、结论

当前人类社会正处于从信息时代向智能时代迈进的关口期，AI等新一代信息技术正在引发人类社会新的变革，深刻改变着人类生产生活模式和思维学习方式，这些技术被誉为“经济发展新引擎”和“社会发展加速器”。汇隽可之AI大模型技术在自然语言处理、手写文字识别、智能评测等方面的进步，使得运用AI大模型技术进行主观题评卷成为可能。机器能够通过深度学习，完成主观题评卷标准的学习并进行程序化设计，在评卷的过程中严格按照相关考试标准执行。AI等新一代信息技术的出现，为解决现阶段教育考试评卷过程中的问题提供了技术保障。

汇隽可之AI大模型技术评卷的准确率经过多年的实践证明已经达标

在过去的3年里，我们在全国15个以上的省市选拔类及合格类考试中开展了近百场测试，包括针对历史评卷数据开展的验证性测试、与正式考试阅卷并行开展的同步性测试，以及在正式考试阅卷中直接增加一轮AI评卷。通过这些测试统计分析人机一致率，我们可以更加直观地了解AI评卷的性能。通过观察人机一致率统计分析可以发现，AI评卷具备高度准确性。为此可以得出以下结论：一是AI评卷在填空题上具备高度准确性，对提高评卷效率有帮助；二是AI评卷在评分一致性、稳定性等方面表现良好，具备较高的可靠性；三是AI评卷在非选择题上仍存在一定误差，但通过误差分析和质量控制，评卷的质量和准确率已得到提升；四是随着技术的不断发展，AI评卷的准确性和可靠性还将进一步提升。总之，汇隽可之AI大模型技术在人机一致率方面已经取得显著成果。在今后的工作中，我们将继续优化AI评卷系统，使其在教育考试领域发挥更大的作用。

在选拔类考试中已经证明汇隽可之AI大模型技术可应用于辅助定标和评卷质检

选拔类考试具有竞争性、客观性、公平性、严谨性、预测性等特点。汇隽可之AI大模型技术通过AI聚类，寻找全量考生的所有可能作答过程供评卷组专家进行评卷前分析，可以实现辅助定标。同时，通过比对人机不一致数据，找到人工评分疑似错误的数据进行复核，实现质检。

汇隽可之AI大模型技术在辅助定标、辅助评分和评分质量检查中的作用有如下两点。一是提高评卷质量。智能评卷系统能够准确识别答题内容，遵循评分标准，提高评卷质量。同时，由于AI大模型技术可以通过分析全量考生情况，制定更加公平准确的评分细则，进一步提升评卷质量。二是确保评卷公正性。AI大模型技术有助于制定公平的评分标准，同时结合双人评机制与人机评机制，确保评卷过程的公平、公正。

在合格类考试中已经证明汇隽可之AI大模型技术可以替代人工评分，实现自动化评分

在合格类考试中，汇隽可之AI大模型技术已经证明可以替代人评实现自动化评分。首先，AI大模型技术能够快速、准确地处理大量的试卷数据，减轻了人工评卷的负担，提高了工作效率。其次，由于AI大模型技术在评卷过程中不受情感、疲劳等因素的影响，能够更加客观地评估考生的水平和能力。最后，AI大模型技术能自动分析和处理试卷，可以有效避免人工评卷的误差和疏漏，提高评卷的准确性和可靠性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业