我要投稿

阶跃星辰Step-1o重大升级，多模态视觉双榜夺冠，国内第一！

发布日期：2025-01-22 07:13:19 浏览次数： 1637 来源：阶跃星辰

Step-1o 系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前，我们发布了 1o 家族的首个模型 Step-1o Audio，这也是国内首个千亿参数端到端语音大模型，今天我们很高兴地为大家带来 Step-1o 系列的最新动态：新成员 Step-1o Vision 多模态理解大模型上线！Step-1o Audio 语音模型能力升级！

相对于 Step-1V 系列多模态理解模型，Step-1o Vision 是更强大的版本：在视觉识别、感知、指令跟随、推理等方面实现了显著提升。

而全面升级后的 Step-1o Audio 情商更高，有了更强大的情绪感知与理解能力和个性化的风格表达，声音更自然，支持多语种及方言理解，同时实现了更低的时延。

现在两款模型均已全量开放，登录跃问 App 即可使用 Step-1o Audio 和 Step-1o Vision，且 Step-1o Vision 也可在跃问网页端（https://yuewen.cn）调用。

Step-1o Vision 使用入口：点击跃问 App 右下角➕，上传图片

Step-1o Audio 使用入口：点击跃问 App 右上角话筒键，发起语音通话

Step-1o Vision：更精准，更智能

Step-1o Vision 是 Step-1o 多模态系列模型中的视觉版本，相比 Step-1V 和 Step-1.5V 视觉理解模型，实现了架构升级，在视觉感知和识别、指令跟随、空间理解与推理等视觉任务效果上实现了大幅提升。

Step-1o Vision 多模态大模型刚上线，就在多个国内外权威榜单拿下第一名的好成绩！

1 月 20 日，LMSYS Org 发布了大模型竞技场 Chatbot Arena 最新榜单，Step-1o Vision 在其中位列视觉领域中国大模型第一，超过所有国内大模型公司。

LMSYS Org 网址：https://lmarena.ai/

同时，在国内权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单中，位列第一。

OpenCompass 网址：https://rank.opencompass.org.cn

话不多说，找几张图片考考它。

更精准的视觉理解

Step-1o Vision 能够精准识别各种复杂图像，包括自然场景、物体细节、图表等，即使遇到图像质量欠佳或存在遮挡、变形等情况，也能准确识别。

对于复杂场景（物体重叠模糊、多种文字），以下图为例，Step-1o Vision 准确捕捉了画面的复古未来风格，并识别出“个人交通工具”、“未来城市”等关键要素，特别是识别并翻译了小字的意大利语，展现了优秀的复杂场景理解、多语言理解和识别能力。

我们上传了一张挤在一块儿的幼年猫科动物图，试图骗过 Step-1o Vision。不过它精准识别了动物数量和品种，还具备一定的幽默感和互动性。

除了最基础的识别和感应之外，对于图片里极其微小但很重要的视觉细节，Step-1o Vision 的理解也不在话下。

Prompt：黑线代表人类知识范围，红圈代表 phd 的工作。这张图说明 phd 的工作特性是什么？

以上面的图片为例，我们分别把它传给 Step-1.5v 和 Step-1o Vision，Step-1o Vision 模型对图片的理解超越了 Step-1.5v。

Step-1o Vision 注意到了 Step-1.5v 遗漏的红色部分（红圈超出黑线），并准确解读出其代表“探索和扩展人类知识边界”的含义，体现了更深入的视觉信息提取和推理能力。
对蓝色部分（红圈虽小但更接近知识前沿）的解读也更准确，将“相对较小”和“更接近前沿”联系起来，说明了博士研究的专精和前瞻性。
模型还额外识别了图中没有提到的圆形这个关键信息，并对其进行了正确的解读。

在下面这张图中，模型能通过表格、logo 等元素精准识别出对应的软件工具，并理解了其中黑色幽默的表达方式，将软件分成了五个等级，还对每个层级的软件进行了介绍。体现了模型优秀的图表识别、图像识别和理解能力，并能结合常识对这些软件的特点进行总结说明。其中，模型成功识别了几个较小的软件图标（例如 Apache OpenOffice 和 LaTeX），表现非常出色。

更智能的视觉推理

Step-1o Vision 是一款高智商的多模态模型，不仅能够精准地识别和理解图片，还能根据图片内容进行复杂推理，为你提供解题策略和创作灵感。

一张真假折叠屏手机图片差点把我们都骗了，不妨给 Step-1o Vision 试试。

它不仅识别出图中是用铰链连接的三个手机，而非真正的折叠屏手机，还能根据常识推断出这种设计的优缺点。图像理解能力和逻辑推理能力妥妥的优秀。其中，正确识别出这种设计的“非实用性”是难点，说明模型对日常生活有一定的认知。

对于“把某件物品拿出来，需要几步”的推理类题目，Step-1o Vision 展示了对物理空间关系的强大理解能力，以及解决复杂任务的逻辑规划能力。

不仅准确识别出图片中多层堆叠物品的空间关系，还按正确顺序给出取出维生素 C 瓶的步骤。特别是它正确识别出茶叶罐是侧立着的，这是理解图片的关键难点。

Step-1o Audio：情绪丰富、个性表达

去年底，我们发布了国内首个千亿参数端到端语音大模型 Step-1o Audio ，一个月后，Step-1o Audio 迎来多项提升，在情绪感知与理解、多语种和多方言、通话体验上有了新的突破。

话不多说，一起来听听看。

Step-1o Audio 能够精准识别用户语气语调中蕴含的情绪信息，并结合语境，深度理解用户的情感需求，给出最佳回应。

相亲成功，见证幸福：在人生的重要时刻，Step-1o Audio 是个永远不会扫兴的朋友。不仅能分享你的喜悦，还能恰如其分地提问，倾听你的故事。

疲劳开车建议：Step-1o Audio 能接住你的所有负面情绪，还能给你实实在在的生活建议！

玩转方言、个性化表达拉满：Step-1o Audio 说起四川话来，无论是语调的起伏还是词汇的运用，都能精准把握，让人仿佛置身于四川的街头巷尾。

如何与男朋友撒娇：Step-1o Audio 的语气自然又可爱，同时还带着一点点小俏皮，瞬间拉近两人之间的距离。

宝宝入学，暖心陪伴：第一次送宝宝上学，总有万般不舍和担心。Step-1o Audio 能理解你的牵挂与不舍，安抚你的焦虑，并给你一些实用的建议。

无论是日常的方言交流，还是关键时刻的情感支持，它都能以个性化的方式与你互动，让你感受到无与伦比的关怀和理解。就像一个懂你的朋友，时刻陪伴在你身边，为你的生活增添一份温暖与乐趣。

One more thing

1 月 19 日，在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 最新语言榜单里，Step-2-16K-Exp 是极少数进入前十的国产大模型，超越了 o1-mini、Gemini 1.5 Pro-002 和 GPT-4o-2024-05-13 等知名模型。

春节前，Step 系列将继续密集上新，为大家带来更全面、性能更加强大的通用大模型。敬请期待！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

作为微软开源的全新架构，Florence-2 以其小巧的体积、炸裂的性能以及对多任务的统一处理方式，在视觉理解领域掀起了一阵旋风

2024-06-26

AGI｜基于Joint BERT模型的意图识别技术实践

2024-07-21

【PPT+讲稿+笔记】张俊林：多模态大模型：系统、趋势与问题

2024-06-10

大家都在问

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

如何提取手写票据信息？

2024-12-09

Encord全球首发多模态数据标注编辑器，AI数据开发技术有哪些新趋势？

2024-11-25

大模型能做对数学题吗？

2024-09-26

实测豆包AI视频模型Seaweed，击败Sora的含金量到底有多少？

2024-09-26

多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

2024-09-01

从AIGC短剧到金融、零售应用，视频生成大模型价值几何？

2024-07-15

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制