微信扫码
添加专属顾问
我要投稿
SuperCLUE排行榜网站:www.superclueai.com
# SuperCLUE-Image
1. 特点
本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题,突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试,评估模型在理解和生成各种复杂场景下图像的能力,从而体现其在捕捉细节精确性和文化深度方面的卓越表现,证明了其在多种场景中的实用性和创新性。
2. 任务方向与评价体系
a.图像质量:考察模型是否基于人类的美学标准,生成的图像是否符合视觉感知和普遍审美偏好,且不仅需要在技术上达标,还要在视觉和情感上与人类的审美共鸣。
b.图文一致性:考察模型生成的图像是否全面包括文本提到的信息,模型能否精确地理解文本中的字面意义。
c.内容创造:考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。
d.复杂度适应性:评估模型在面对不同复杂度的文本描述时的适应能力和表现,包括简单描述和复杂描述的生成效果。
2.2 评价标准
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
2)评价获取
3)计算模型得分
4)测评过程示例(以GPT 4o为例)
问题及改进的反馈意见:
打分与评价开始:
3. 基于标准3的<环境与上下文一致性>:光照和阴影看起来自然且与环境一致,摊位和果蔬在空间关系上布局合理,符合现实情景。基于标准3的得分:5分。
4基于标准4的<图像细节中的微妙不一致之处>:整体细节表现良好,但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分:4分。
综合以上,AI助手的回答的综合得分(平均分)为[[4.25]]
由此可见,本次测评的可靠性较高。
# 测评结果
总成绩榜单
任务大类榜单
图像质量榜单
图文一致性榜单
内容创造榜单
图片复杂度榜单
# 测评分析
在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。
在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。
在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。
在SC-Image复杂度适应性测评中,BlueLM-Art和豆包对于复杂任务上有很好的生成能力,通义万相在简单任务上表现不俗。
# 示例
问题:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。
模型回答比较:
问题:一个红色的苹果。
问题:现实中不可能存在的景象图片,宝石生长的树木。
示例4:复杂度适应性【简单生成】
问题:一张正方形和圆形来组合的机器人图像。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-10
【一文看懂】大白话解释大模型的技术原理,为什么它那么聪明?
2025-03-10
【一文看懂】7B、175B,这些大模型参数是什么意思?它们是怎么算出来的?参数越多=模型越强?
2025-03-10
大模型领域常用名词解释(近100个)
2025-03-10
大模型应用联网搜索:重塑智能时代的交互与决策
2025-03-10
MCP:为 AI Agent 打造开放与互操作性的“超级接口”
2025-03-10
QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
2025-03-10
国产自强!实在Agent+DeepSeek+华为昇腾一体机重磅发布!
2025-03-10
1次搭建完胜1亿次编码,MCP硅谷疯传!Anthropic协议解锁智能体「万能手」
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-05-28
2024-07-31
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-08
2025-03-08
2025-03-07
2025-03-07