我要投稿

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

发布日期：2024-06-12 22:26:32 浏览次数： 7392 作者：CLUE中文语言理解测评基准

文生图技术已在人工智能领域取得重要进展，使计算机能够依据文本描述生成图像。特别是在中文场景中，此技术不仅改变了内容创作方式，还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。

目前，国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试，但理解和生成具有中文文化特色的复杂图像依然具有挑战。

为此，我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计，提供全面公正的评估框架，覆盖生成质量、多样性和文本一致性等方面的表现，以推动技术的标准化和国际化，加速其在更多实际应用场景的应用。

SuperCLUE排行榜网站：www.superclueai.com

# SuperCLUE-Image

1. 特点

（1）中文原生文生图能力评估

立足于为通用人工智能时代提供中文世界测评基础设施，文字输入或提示词（prompt）都是中文原生的，不是英文或其翻译版本；并充分体现中文世界的场景和特点，比如识别并融入我国的习俗和文化元素，比如根据中国文化元素生成具有中国风的图片，不仅展现了图像美学，也蕴含了丰富的文化内涵。

（2）场景还原能力评估

该体系深入探讨了大型模型利用图片还原场景的能力，包括评估模型是否能根据用户提供的提示词生成符合预期的图片。通过构图、光影、色彩、细节处理等方面评价大型模型生成图片的质量，同时对其生成的图片进行内容创造能力的评估。

（3）应用潜力评估

本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题，突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试，评估模型在理解和生成各种复杂场景下图像的能力，从而体现其在捕捉细节精确性和文化深度方面的卓越表现，证明了其在多种场景中的实用性和创新性。

2. 任务方向与评价体系

测评体系分为任务方向与评分标准。

2.1 任务方向

文生图关键能力评估

a.图像质量：考察模型是否基于人类的美学标准，生成的图像是否符合视觉感知和普遍审美偏好，且不仅需要在技术上达标，还要在视觉和情感上与人类的审美共鸣。

b.图文一致性：考察模型生成的图像是否全面包括文本提到的信息，模型能否精确地理解文本中的字面意义。

c.内容创造：考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。

d.复杂度适应性：评估模型在面对不同复杂度的文本描述时的适应能力和表现，包括简单描述和复杂描述的生成效果。

2.2 评价标准

2.3 测评及计分方式

整体测评流程包括：1.模型答案获取；2.评价获取；3.计算模型得分。

1）模型答案获取

通过单轮问答形式，使用API 调用方式来获取模型的答案。

2）评价获取

对于每个任务类型都有一个或多个评价维度，每个维度按照评分标准分为5级，定义为1-5分。结合参考答案使用超级模型进行打分，模型回答的得分是对应各个维度得分的平均值。例如“图片质量”中的“图片保真度之辨识难度”任务，设定四个评价打分维度：

a.满足基本需求：图片应当严格满足问题中的所有要点，图片中必须包括文字中描述的所有元素，以及准确完整地展现文字中描述的事件的过程，并且如果出现人物，人物的五官(包括眼睛、耳朵、鼻子、嘴巴)和身体躯干、四肢应当细节完整，清晰和正常人一样，符合现实世界的规律。如果图片中没有完整地展现文字中要求的所有内容，或者人物的五官或身体躯干、四肢出现细节扭曲，细节模糊以及出现明显不合理的情况，则本项评分必须打低分（不超过2分）。由于本项要求是图像质量的基础，所以如果本项的得分低于或等于2分，那么之后的每项评分最高只能评为3分；

b.基本图像属性辨识：考察图像的纹理，清晰度，颜色是否能被区分为真实或生成的图片；

c.环境与上下文一致性：图像中光照方向和阴影是否自然，以及它们是否与环境一致，物体的空间定位和相互关系是否符合真实世界的逻辑；

d.图像细节中的微妙不一致之处：如皮肤纹理、反光和微小物体的边缘。

3）计算模型得分

SC-Image评分规则说如下：

本次测评共设置单轮问答题目660道，最终通过计算各模型以上660个问题的答案均值，并通过归一化为百分制分数作为模型的测评得分。

4）测评过程示例（以GPT 4o为例）

任务类型：图片质量—图片保真度之辨识难度

a.问题

一个装满新鲜果蔬的农夫市场摊位。

b.答案

c.评价

我的思考与答案：

问题及改进的反馈意见：

总体而言，这是一张高质量的图片，并且很好地诠释了用户的问题。然而，有些元素显得不够精致，比如某些果蔬看起来略微人工。同时，没有人物出现在图像中，所以无法评价人物细节。

打分与评价开始：

1. 基于标准1的<满足基本需求>：这张图片包括了大量新鲜的果蔬，布满整个摊位，并且整体展示符合用户描述的“装满新鲜果蔬的农夫市场摊位”。除果蔬外，周围环境也与农夫市场一致。由于图像中没有涉及到人物，因此无法评价人物的细节。基于标准1的得分：4分。

2. 基于标准2的<基本图像属性辨识>：图像有良好的清晰度和色彩，再现了新鲜果蔬的自然色彩和纹理。但部分果蔬的质感显得有些人工。基于标准2的得分：4分。

3. 基于标准3的<环境与上下文一致性>：光照和阴影看起来自然且与环境一致，摊位和果蔬在空间关系上布局合理，符合现实情景。基于标准3的得分：5分。

4基于标准4的<图像细节中的微妙不一致之处>：整体细节表现良好，但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分：4分。

综合以上，AI助手的回答的综合得分（平均分）为[[4.25]]

2.4 测评可靠性分析

为了验证本次测评标准的可靠性与数据集的实用性，在进行正式测评之前，我们选取了两个国内外具有代表性的模型进行了测评可靠性实验，具体实验过程如下：

我们从660道题目中针对2个模型，每个模型随机抽取了103道题目进行人工复审，审核内容及标准包括：

评价质量分为：优秀，良好，及格，不及格

完全不符合自己的判断：不及格（60以下），

基本符合自己的判断：及格（60或以上）或良好（75或以上）；

特别符合自己的判断，评价的特别好：优秀（85或以上）

最后统计及格的题目的比例。

最终各模型可靠性指标结果如下：

由此可见，本次测评的可靠性较高。

# 测评结果

总成绩榜单

任务大类榜单

图像质量榜单

图文一致性榜单

内容创造榜单

图片复杂度榜单

# 测评分析

1. 模型总体能力分析

在中文文生图总体能力上，国内外模型有一定差距。DALL·E 3以76.94的高分较为领先，是唯一得分超70分以的文生图模型；紧随其后的是百度的文心一格与vivo的BlueLM-Art，取得国内最好成绩；另外，智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗，均有65分以上的表现。

2. 各任务得分分析

DALL·E 3在各项指标上均有优异表现，特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art（vivo）在国内模型中表现也较为出色，但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。

1）图像质量分析