AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一!
发布日期:2025-01-22 07:13:19 浏览次数: 1637 来源:阶跃星辰
推荐语

国内首个千亿参数端到端语音大模型 Step-1o 系列重大升级,多模态视觉双榜夺冠,这是小贤看到的关于模型升级最好的消息,没有之一。

核心内容:
1. Step-1o 系列模型上新动态
2. Step-1o Vision 多模态理解大模型的优势
3. 两款模型的使用入口及获取成绩

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

Step-1o 系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,我们发布了 1o 家族的首个模型 Step-1o Audio,这也是国内首个千亿参数端到端语音大模型,今天我们很高兴地为大家带来 Step-1o 系列的最新动态:新成员 Step-1o Vision 多模态理解大模型上线!Step-1o Audio 语音模型能力升级!
相对于 Step-1V 系列多模态理解模型,Step-1o Vision 是更强大的版本:在视觉识别、感知、指令跟随、推理等方面实现了显著提升。
而全面升级后的 Step-1o Audio 情商更高,有了更强大的情绪感知与理解能力个性化风格表达声音更自然,支持多语种及方言理解,同时实现了的时
现在两款模型均已全量开放,登录跃问 App 即可使用 Step-1o Audio 和 Step-1o Vision,且 Step-1o Vision 也可在跃问网页端(https://yuewen.cn)调用。
Step-1o Vision 使用入口:点击跃问 App 右下角➕,上传图片
Step-1o Audio 使用入口:点击跃问 App 右上角话筒键,发起语音通话

Step-1o Vision:更精准,更智能

Step-1o Vision 是 Step-1o 多模态系列模型中的视觉版本,相比 Step-1V 和 Step-1.5V 视觉理解模型,实现了架构升级,在视觉感知和识别指令跟随空间理解与推理等视觉任务效果上实现了大幅提升。
Step-1o Vision 多模态大模型刚上线,就在多个国内外权威榜单拿下第一名的好成绩!
1 月 20 日,LMSYS Org 发布了大模型竞技场 Chatbot Arena 最新榜单,Step-1o Vision 在其中位列视觉领域中国大模型第一,超过所有国内大模型公司。
LMSYS Org 网址:https://lmarena.ai/
同时,在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,位列第一。
OpenCompass 网址:https://rank.opencompass.org.cn
话不多说,找几张图片考考它。
更精准的视觉理解
Step-1o Vision 能够精准识别各种复杂图像,包括自然场景、物体细节、图表等,即使遇到图像质量欠佳或存在遮挡、变形等情况,也能准确识别。
对于复杂场景(物体重叠模糊、多种文字),以下图为例,Step-1o Vision 准确捕捉了画面的复古未来风格,并识别出“个人交通工具”、“未来城市”等关键要素,特别是识别并翻译了小字的意大利语,展现了优秀的复杂场景理解、多语言理解和识别能力。





我们上传了一张挤在一块儿的幼年猫科动物图,试图骗过 Step-1o Vision。不过它精准识别了动物数量和品种,还具备一定的幽默感和互动性。


除了最基础的识别和感应之外,对于图片里极其微小但很重要的视觉细节,Step-1o Vision 的理解也不在话下。

Prompt:黑线代表人类知识范围,红圈代表 phd 的工作。这张图说明 phd 的工作特性是什么?
以上面的图片为例,我们分别把它传给 Step-1.5v 和 Step-1o Vision,Step-1o Vision 模型对图片的理解超越了 Step-1.5v
  • Step-1o Vision 注意到了 Step-1.5v 遗漏的红色部分(红圈超出黑线),并准确解读出其代表“探索和扩展人类知识边界”的含义,体现了更深入的视觉信息提取和推理能力。
  • 对蓝色部分(红圈虽小但更接近知识前沿)的解读也更准确,将“相对较小”和“更接近前沿”联系起来,说明了博士研究的专精和前瞻性。
  • 模型还额外识别了图中没有提到的圆形这个关键信息,并对其进行了正确的解读。

在下面这张图中,模型能通过表格、logo 等元素精准识别出对应的软件工具,并理解了其中黑色幽默的表达方式,将软件分成了五个等级,还对每个层级的软件进行了介绍。体现了模型优秀的图表识别、图像识别和理解能力,并能结合常识对这些软件的特点进行总结说明。其中,模型成功识别了几个较小的软件图标(例如 Apache OpenOffice 和 LaTeX),表现非常出色。

更智能的视觉推理
Step-1o Vision 是一款高智商的多模态模型,不仅能够精准地识别和理解图片,还能根据图片内容进行复杂推理,为你提供解题策略和创作灵感。
一张真假折叠屏手机图片差点把我们都骗了,不妨给 Step-1o Vision 试试。
不仅识别出图中是用铰链连接的三个手机,而非真正的折叠屏手机,还能根据常识推断出这种设计的优缺点。图像理解能力和逻辑推理能力妥妥的优秀。其中,正确识别出这种设计的“非实用性”是难点,说明模型对日常生活有一定的认知。
对于“把某件物品拿出来,需要几步”的推理类题目,Step-1o Vision 展示了对物理空间关系的强大理解能力,以及解决复杂任务的逻辑规划能力。
不仅准确识别出图片中多层堆叠物品的空间关系,还按正确顺序给出取出维生素 C 瓶的步骤。特别是它正确识别出茶叶罐是侧立着的,这是理解图片的关键难点。

Step-1o Audio:情绪丰富、个性表达

去年底,我们发布了国内首个千亿参数端到端语音大模型 Step-1o Audio ,一个月后,Step-1o Audio 迎来多项提升,在情绪感知与理解、多语种和多方言、通话体验上有了新的突破。

话不多说,一起来听听看。

Step-1o Audio 能够精准识别用户语气语调中蕴含的情绪信息,并结合语境,深度理解用户的情感需求,给出最佳回应。

相亲成功,见证幸福:在人生的重要时刻,Step-1o Audio 是个永远不会扫兴的朋友。不仅能分享你的喜悦,还能恰如其分地提问,倾听你的故事。

疲劳开车建议:Step-1o Audio 能接住你的所有负面情绪,还能给你实实在在的生活建议!
玩转方言、个性化表达拉满:Step-1o Audio 说起四川话来,无论是语调的起伏还是词汇的运用,都能精准把握,让人仿佛置身于四川的街头巷尾。
何与男朋友撒娇Step-1o Audio 的语气自然又可爱,同时还带着一点点小俏皮,瞬间拉近两人之间的距离。
宝宝入学,暖心陪伴第一次送宝宝上学,总有万般不舍和担心。Step-1o Audio 能理解你的牵挂与不舍,安抚你的焦虑,并给你一些实用的建议。
无论是日常的方言交流,还是关键时刻的情感支持,它都能以个性化的方式与你互动,让你感受到无与伦比的关怀和理解。就像一个懂你的朋友,时刻陪伴在你身边,为你的生活增添一份温暖与乐趣。
One more thing
1 月 19 日,在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 最新语言榜单里,Step-2-16K-Exp 是极少数进入前十的国产大模型,超越了 o1-mini、Gemini 1.5 Pro-002 和 GPT-4o-2024-05-13 等知名模型。
春节前,Step 系列将继续密集上新,为大家带来更全面、性能更加强大的通用大模型。敬请期待!



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询