微信扫码
添加专属顾问
我要投稿
在这篇公众号发出的时候
GPT-4o mini 发布了
性能上,比 GPT4-0125 更好
(基于 LMSYS 竞技场信息)
GPT-4o mini 优于 GPT4-0125
价格上,比 3.5 还便宜 60%
4o mini 输入:$0.15
4o mini 输出:$0.6
堪称不讲武德
目前,GPT-4o mini 以 API 的方式发布
支持图片和文字,最长 128k
后续也会支持支持视频和音频
训练截数据截止到 2023 年 10 月
并对非英文更加友好
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-25
OpenAI 白送 200 美元的深度研究功能?实测后发现这个「阉割版」不如不用
2025-04-25
为什么一定要做Agent智能体?
2025-04-25
哇!首个MCPBench来了,MCP竟然不比Function Calls更有优势? | 最新
2025-04-25
医疗大模型案例分析(一):Google Med-PaLM
2025-04-25
vLLM+Qwen-32B+Open Web UI构建本地私有大模型
2025-04-25
AI产品经理思考MCP(3):MCP的未来可能
2025-04-25
AI产品经理思考MCP协议(2):标准化的必要性
2025-04-25
AI产品经理思考MCP协议(1):预见MCP——我的“万能库”与标准化之路
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17