我要投稿

「AI搜索」基准测评方案发布

发布日期：2024-10-16 20:44:35 浏览次数： 4205

作者：CLUE中文语言理解测评基准

微信搜一搜，关注“CLUE中文语言理解测评基准”

随着人工智能技术的迅速发展，AI搜索正在逐步改变人们获取信息的方式。虽然传统搜索引擎可以满足大部分需求，但在处理复杂查询、理解用户意图和提供个性化服务方面仍存在局限。AI搜索通过运用大数据分析、自然语言处理和机器学习等技术，更加精准地理解用户查询，并提供更丰富、个性化的搜索结果。

为了确保AI搜索技术的进步真正满足用户需求并推动行业创新，对其能力的测评变得尤为重要。为此，我们推出了 SuperCLUE-AISearch 测评方案，用于评估大模型在AI搜索中的表现。它不仅考察核心能力，包含丰富的场景应用，而且设置了多样化的挑战性问题进行考察。该方案能够为技术研发提供反馈，帮助开发者识别和优化模型的不足，推动建立行业公认的评价标准，促进AI搜索技术的健康持续发展。

排行榜地址：https://www.superclueai.com

# SuperCLUE-AISearch测评体系

SuperCLUE产品象限（AI搜索）效果图

1. 特点

（1）多维能力评估

测评方案全面覆盖多领域知识、信息检索与整合、分析与推理、语义理解与跨领域关联等核心能力，确保AI搜索模型在复杂任务中具备高效、精准的表现。

（2）结合场景化应用

通过教育、商业、文化、娱乐及科技等实际场景的应用测试，评估AI搜索的实用性和相关性，确保其在多种实际需求中表现出色并提供有价值的建议。

（3）严谨的评价标准

该方案设立了严格的知识准确性、逻辑性、时效性等评价标准，确保AI搜索技术不仅能准确获取和整合信息，还能提供逻辑清晰且有效的解决方案。

2. 测评任务

维度一：能力任务

评估AI搜索模型在知识覆盖、信息整合、推理分析、语义理解和最新信息获取方面的能力，确保其能处理复杂问题并提供准确、全面的答案。

1）多领域知识覆盖与准确性

评估AI搜索在各个领域内的知识掌握水平，要求模型具备广泛的知识领域覆盖和高精度的知识点提供，特别是在专业化领域中的深度理解。

示例：请列举巴洛克时期的著名作曲家，说明他们的代表作品，解释每位作曲家作品中音乐风格的发展变化，讨论其作品对后世古典音乐流派（如古典主义、浪漫主义）的影响，并选取至少三部作品，分析其音乐结构（例如调性、节奏、配器）和文化背景对创作的影响，特别是在当时社会、宗教、政治环境下的作用。

2）信息检索与整合能力

考察AI搜索能否从大规模数据中高效检索和筛选相关信息，并能够对复杂的多源信息进行逻辑性的整合，形成完整且一致的结果。

示例：整理2023年全球主要芯片制造公司的研发投入排名，对比2020-2023年期间这些公司的研发投入变化趋势，分析各公司研发投入增长或下降的原因（如市场需求、技术创新、政府政策等），并结合各公司研发投入对其全球市场份额、技术领先优势和行业竞争格局的影响，预测未来三年内全球芯片制造行业的格局变化。

3）分析与推理能力

测评AI模型对复杂问题的分析与推理能力，特别是其在处理数据计算、逻辑推导以及问题解决中的表现。

示例：从北京出发，依次经过上海、广州、成都，再返回北京，计算每种交通方式下的总距离，还需估算每段旅程的行驶时间与费用，并提供一份表格对比分析三种出行方式的距离、时间和成本优劣，并结合中国不同城市的气候，分析在不同季节进行这段旅程时可能遇到的交通挑战，如冬季的冰雪天气对自驾行程的影响，或雨季对飞行航班的干扰，评估可能的影响对行程距离与时间的变化。

4）最新信息获取与时效性

考察模型获取和处理最新信息的能力，尤其是在快速变化的技术和市场中，要求模型能够及时更新，并准确传达最新的行业动态或技术进展。

示例：分析一下2024年诺贝尔物理学奖的获奖者及其研究领域，详细介绍每位获奖者的主要研究领域，并解析他们的研究如何推动了物理学领域的进步，特别是哪些物理理论或实验突破使得他们获得诺贝尔奖。结合最新的物理学进展，分析这些研究的前瞻性和现实意义。

维度二：场景应用

衡量AI搜索在教育、商业、文化、娱乐和科技领域的实际应用表现，评估其信息相关性、实用性和表达清晰度。

1）教育与学术研究

AI搜索在学术研究和教育场景中的应用能力，包括提供高质量的学术资料、研究趋势分析以及教育课程建议等。

示例：请列举全球范围内提供人工智能博士项目的顶尖大学，对于每所大学，介绍其人工智能博士项目的核心设置，包括课程内容、研究方向、入学要求、导师团队及实验室设施等，特别说明该项目在全球范围内的学术声誉与排名情况。

2）商业与市场分析

评估AI搜索在商业应用中的表现，涉及市场趋势预测、竞争分析、投资机会评估等任务的有效性和准确性。

示例：请分析我国奶茶连锁品牌的市场份额分布及未来发展趋势，列举国内主要奶茶连锁品牌的市场份额，分析头部品牌（如喜茶、奈雪的茶、蜜雪冰城等）的市场占有率和区域覆盖范围，并对比不同品牌在一线、新一线及二线城市的市场表现，说明这些品牌在各区域市场的扩展策略。

3）文化与历史解读

AI搜索在文化和历史背景下的表现能力，尤其是在提供深度解读、跨文化分析及历史事件背景等方面的应用情况。

示例：请深入分析古希腊哲学对现代民主制度的影响，讨论古希腊尤其是雅典城邦的直接民主制度的发展过程，分析公民大会、陪审法庭、轮流担任公职等制度设计，并探讨这些设计如何启发了现代代议制民主制度的产生。

4）娱乐与网络文化

评估AI搜索在娱乐产业和网络文化中的表现，涉及社交媒体、热点事件分析以及网红文化等方面的精准理解和信息传达。

示例：请列举在近半年内抖音平台爆红的网红，按不同领域进行分类（如美食、时尚、美妆、健身、生活技巧、科技解说等），分别说明他们的主要内容特点、风格定位及与粉丝互动的方式，并分析这些网红的粉丝增长趋势、点赞量和互动率，评估其在抖音平台的流量表现，说明他们如何通过短视频、直播等方式吸引观众注意，探讨这些网红是否有跨平台影响力（如微博、小红书等）。

5）科技与编程支持

考察AI搜索在编程技术支持、技术文档提供以及代码问题解决等科技场景中的应用，要求准确传递技术解决方案并具备实践指导意义。

请列举Python的主要机器学习框架，详细分析这些框架在深度学习中的表现，讨论它们在模型构建、灵活性、性能优化、GPU加速及易用性方面的优缺点，特别是PyTorch和TensorFlow在工业应用和学术研究中的不同定位。

3. 评估方法与思路

1）评分标准

针对各个大模型在测评任务中的回答质量评估，我们在能力任务中针对不同维度采用了各自的评估标准；而在场景应用中则使用统一的评估标准，以全面反映大模型在AI搜索任务上的表现。

注：具体的评估标准及权重以正式发布的测评报告为准。

2）评估案例

我们采用了国内外的大模型来回答我们准备的问题，并使用超级模型对大模型的回答进行自动化的评估。以下分别为2个评估案例的初步结果：

案例1：能力任务

问题：请列举巴洛克时期的著名作曲家，说明他们的代表作品，解释每位作曲家作品中音乐风格的发展变化，讨论其作品对后世古典音乐流派（如古典主义、浪漫主义）的影响，并选取至少三部作品，分析其音乐结构（例如调性、节奏、配器）和文化背景对创作的影响，特别是在当时社会、宗教、政治环境下的作用。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 1）：

对这个答案进行评估如下：

1.知识准确性（5分）：

回答中的事实基本正确，作曲家、代表作品和风格发展的描述准确；基于标准1的得分：4分。

得分：4/5

2.领域覆盖度（5分）：

回答涵盖了主要作曲家及其影响，但缺少对至少三部作品的详细音乐结构和文化背景分析；

基于标准2的得分：3分。

得分：3/5

3.专业深度（5分）：

对各领域的阐述较为概括，缺乏对作品细节的深入探讨，专业深度不足；基于标准3的得分：2分。

得分：2/5

综合以上，AI助手的回答的综合得分为 3 分。

模型（国产大模型 1）回答：

超级模型评分（对于国产大模型 1）：

对这个答案进行评估如下：

1.知识准确性（5分）：

回答总体准确，提供了关于作曲家及其作品的正确信息，仅在末尾有小的遗漏；因此基于标准1

的得分：4分。

得分：4/5

2.领域覆盖度（5分）：

回答涵盖了大部分要求的内容，但缺乏对音乐结构和文化背景在社会、宗教、政治环境下的详

细分析；因此基于标准2的得分：3分。

得分：3/5

3.专业深度（5分）：

回答有一定深度，但需要更深入地探讨每部作品的音乐结构和文化因素的影响，以展示深入理解；

因此基于标准3的得分：3分。

得分：3/5

综合以上，AI助手的回答的综合得分为 3.33 分。

案例2：场景应用

问题：请列举全球范围内提供人工智能博士项目的顶尖大学，对于每所大学，介绍其人工智能博士项目的核心设置，包括课程内容、研究方向、入学要求、导师团队及实验室设施等，特别说明该项目在全球范围内的学术声誉与排名情况。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 2）：

对这个答案进行评估如下：

1.可靠与相关性（5分）：

回答提供了关于全球顶尖大学人工智能博士项目的总体信息，包括课程内容、研究方向、入学要求、导师团队、实验室设施和学术声誉等，信息基本可靠且与问题密切相关。然而，部分细节可能存在更新或不准确之处，例如引用了2024年US News排名，可能超出当前的知识范围。基于标准1的得分：4分。

得分：4/5

2.实用性（5分）：

回答提供了对申请者有用的概览，但缺乏具体的操作性建议，例如详细的入学要求、申请流程或项目独特优势等，实用性稍有不足。基于标准2的得分：3分。

得分：3/5

3.表达清晰度（5分）：

内容组织清晰，使用了标题和要点，便于阅读和理解。语言表达流畅，信息呈现方式有

助于读者快速获取所需内容。基于标准3的得分：5分。

得分：5/5

综合以上，AI助手的回答的综合得分为 4 分。

模型（国产大模型 2）回答：

超级模型评分（对于国产大模型 2）：

对这个答案进行评估如下：

1.可靠与相关性（5分）：

回答列举了全球范围内的顶尖大学，并详细介绍了各自的人工智能博士项目。但内容过于泛泛，部分信息可能不准确，如统一要求硕士学位、GRE成绩等，且未提及非美国的顶尖大学，缺乏全面性。基于标准1的得分：3分。

得分：3/5

2.实用性（5分）：

回答提供了课程内容、研究方向和入学要求等信息，对有意申请者有一定参考价值。但由于细节不足，信息较为概括，无法帮助读者深入比较各项目的特色，实用性有限。基于标准2的得分：3分。

得分：3/5

3.表达清晰度（5分）：

回答结构清晰，使用了标题和列表，信息组织有序，便于理解和阅读。基于标准3的得分：5分。

得分：5/5

综合以上，AI助手的回答的综合得分为 3.66 分。

3）测评集构建

AI搜索任务中文题库构建流程：

1. 参考现有的题目

2. 中文题目撰写

3. 小批量测试

4. 修改并确定中文题目

5. 基于设计好的中文题目与大模型进行提问

4）评分方法

评估流程：1.获得题目与大模型的回答-->2.依据评估标准-->3.使用评分规则-->4.进行打分

结合超级模型，在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得评估结果。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

「AI搜索」基准测评方案发布

SuperCLUE产品象限（AI搜索） 效果图

3）测评集构建

4）评分方法

SuperCLUE产品象限（AI搜索）效果图