微信扫码
与创始人交个朋友
我要投稿
SuperCLUE排行榜网站:www.superclueai.com
# SuperCLUE-Image
1. 特点
本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题,突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试,评估模型在理解和生成各种复杂场景下图像的能力,从而体现其在捕捉细节精确性和文化深度方面的卓越表现,证明了其在多种场景中的实用性和创新性。
2. 任务方向与评价体系
a.图像质量:考察模型是否基于人类的美学标准,生成的图像是否符合视觉感知和普遍审美偏好,且不仅需要在技术上达标,还要在视觉和情感上与人类的审美共鸣。
b.图文一致性:考察模型生成的图像是否全面包括文本提到的信息,模型能否精确地理解文本中的字面意义。
c.内容创造:考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。
d.复杂度适应性:评估模型在面对不同复杂度的文本描述时的适应能力和表现,包括简单描述和复杂描述的生成效果。
2.2 评价标准
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
2)评价获取
3)计算模型得分
4)测评过程示例(以GPT 4o为例)
问题及改进的反馈意见:
打分与评价开始:
3. 基于标准3的<环境与上下文一致性>:光照和阴影看起来自然且与环境一致,摊位和果蔬在空间关系上布局合理,符合现实情景。基于标准3的得分:5分。
4基于标准4的<图像细节中的微妙不一致之处>:整体细节表现良好,但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分:4分。
综合以上,AI助手的回答的综合得分(平均分)为[[4.25]]
由此可见,本次测评的可靠性较高。
# 测评结果
总成绩榜单
任务大类榜单
图像质量榜单
图文一致性榜单
内容创造榜单
图片复杂度榜单
# 测评分析
在SC-Image图像质量测评中,DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗,BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。
在SC-Image图文一致性测评中,国内外模型均得分不高。相对来说,DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高,表现不俗。
在SC-Image内容创造测评中,DALL·E 3展现较大的领先优势,CogView3在风格创造上展现了很高的水准,而文心一格在组合元素创造性上表现不俗。
在SC-Image复杂度适应性测评中,BlueLM-Art和豆包对于复杂任务上有很好的生成能力,通义万相在简单任务上表现不俗。
# 示例
问题:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。
模型回答比较:
问题:一个红色的苹果。
问题:现实中不可能存在的景象图片,宝石生长的树木。
示例4:复杂度适应性【简单生成】
问题:一张正方形和圆形来组合的机器人图像。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-23
2025年AI大模型的趋势与洞察
2024-12-23
阶跃星辰完成数亿美元 B 轮融资,发力「超级模型」+「超级应用」
2024-12-23
百川智能发布全链路领域增强金融大模型Baichuan4-Finance,金融能力领先GPT-4o近20%
2024-12-22
AI“落地”系列——Agent
2024-12-22
LAMBO:AI大模型赋能边缘智能
2024-12-22
如何从头建立一个通用AI智能体应用?
2024-12-22
不是炒作GenAI!终于有 BERT 的替代品了
2024-12-21
Anthropic最新:AI Agents 2024年度总结!
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01