微信扫码
添加专属顾问
我要投稿
SuperCLUE排行榜网站:www.superclueai.com
# SuperCLUE-Image
1. 特点
本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题,突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试,评估模型在理解和生成各种复杂场景下图像的能力,从而体现其在捕捉细节精确性和文化深度方面的卓越表现,证明了其在多种场景中的实用性和创新性。
2. 任务方向与评价体系
a.图像质量:考察模型是否基于人类的美学标准,生成的图像是否符合视觉感知和普遍审美偏好,且不仅需要在技术上达标,还要在视觉和情感上与人类的审美共鸣。
b.图文一致性:考察模型生成的图像是否全面包括文本提到的信息,模型能否精确地理解文本中的字面意义。
c.内容创造:考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。
d.复杂度适应性:评估模型在面对不同复杂度的文本描述时的适应能力和表现,包括简单描述和复杂描述的生成效果。
2.2 评价标准
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
2)评价获取
3)计算模型得分
4)测评过程示例(以GPT 4o为例)
问题及改进的反馈意见:
打分与评价开始:
3. 基于标准3的<环境与上下文一致性>:光照和阴影看起来自然且与环境一致,摊位和果蔬在空间关系上布局合理,符合现实情景。基于标准3的得分:5分。
4基于标准4的<图像细节中的微妙不一致之处>:整体细节表现良好,但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分:4分。
综合以上,AI助手的回答的综合得分(平均分)为[[4.25]]
由此可见,本次测评的可靠性较高。
# 测评结果
总成绩榜单
任务大类榜单
图像质量榜单
图文一致性榜单
内容创造榜单
图片复杂度榜单
# 测评分析
在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。
在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。
在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。
在SC-Image复杂度适应性测评中,BlueLM-Art和豆包对于复杂任务上有很好的生成能力,通义万相在简单任务上表现不俗。
# 示例
问题:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。
模型回答比较:
问题:一个红色的苹果。
问题:现实中不可能存在的景象图片,宝石生长的树木。
示例4:复杂度适应性【简单生成】
问题:一张正方形和圆形来组合的机器人图像。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-24
温度参数:调节AI输出的确定性与创造性平衡
2025-04-24
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
2025-04-24
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
2025-04-24
字节扣子空间 VS 智谱AutoGLM,谁家Agent更好用?(附邀请码)
2025-04-24
Function Calling已经过时 ,MCP才是真正的大模型接口标准
2025-04-24
大模型技术创新驱动的AI生态和应用演进
2025-04-24
除了MCP我们还有什么?
2025-04-24
LLM 推理引擎之争:Ollama or vLLM ?
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17