AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


智谱发布新模型,“实时多模态”惊艳所有人
发布日期:2025-01-22 14:30:06 浏览次数: 1588 来源:技术领导力
推荐语

智谱新模型发布,多模态能力惊艳!行业首个端到端模型,为开发者送福利。

核心内容:
1. 介绍端到端多模态模型的创新能力
2. 阐述模型的免费调用及相关代码
3. 展示模型的语音对话和唱歌功能

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

2025年开春,智谱GLM系列模型上新升级了,这次发布可以总结为一句话:模型能力越来越强,对开发者越来越普惠。本次发布当中,尤其让我眼前一亮的是端到端多模态模型GLM-Realtime,简单上手测试之后,我觉得大模型已经进入到了next level,下面跟随K哥一起来抢先体验吧。




01

行业首个端到端多模态模型,初体验


根据智谱官方的介绍,GLM-Realtime是一个端到端多模态大模型,具有近乎实时的视频理解端到端的语音交互能力,创新性地提供了清唱功能,并且支持长达2分钟的记忆以及Function Call功能


视频理解能力就好比AI有了眼睛,输入的信息更丰富了;端到端的语音交互,可以随时打断,交互方式更接近人类,清唱更是独树一帜的能力;记忆让AI能够处理更多时间跨度的信息;Function Call功能,通过调用外部知识库,拓展了AI的知识边界。


GLM-Realtime API 已经在智谱AI开放平台上线,现阶段可以免费调用,对于广大个人开发者来说,简直就是送福利。网址如下:

https://bigmodel.cn?utm_source=0103&utm_campaign=2025q1&_channel_track_key=FLc6U2DC


下面我们选择几个场景,做些小应用,更深入地探索GLM-Realtime的能力。




02

不会唱歌的AI,不是好Chatbot


先来试试GLM-Realtime的语音对话能力。在智谱AI开放平台上注册好账号后,进入控制台,创建一个API key,就可以对接口进行调用了。以下是我的客户端鉴权代码:



服务端的鉴权代码:



接下来实现接口调用,通过WebSocket连接建立与接口之间的双向通信。



设计一个简单的语音对话界面,能够启动和停止语音对话。除了对话,现在GLM-Realtimeg已经会唱歌了



语音对话界面的实现代码,如下:



程序打包发布,现在就来看看实际运行效果吧。



不得不说,AI唱得真好,比我强太多了。




03

AI帮你看见更大的世界


接下来,试试GLM-Realtime的视频理解能力,客户端和服务端鉴权代码跟前面一样,就不展示了。还需要设计一个简单的视频交互界面:


(效果来自智谱清言,已支持视频通话)


以android端App应用为例,代码实现如下:



服务端传入视频、音频内容,返回音频,代码实现如下:



将以上代码运行起来,看下服务端运行时日志:



再看看客户端运行时日志:



完成代码调试后,就可以打包发布了,一起来看看效果。


(效果来自智谱清言,已支持视频通话)




04

当AI有了记忆


当GLM-Realtime强大的视频理解能力,搭载到智能眼镜上,又会激发出怎样的创新和创意呢?智谱携手INMO影目,进行了有趣的探索。戴上智能眼镜,轻轻一按开启对话模式,这时GLM-Realtime跟你看到的画面是一样的,来看看实测的效果。


你也被智能眼镜惊艳到了吧?接下来,还有更加震撼的,在GLM-Realtime长期记忆能力的加持下,你能够对2分钟内看到的画面进行提问。春节快到了,我让AI帮我写对联,对AI来说小菜一碟。体验下来,交互方式非常有趣,就好像跟一位学识渊博的朋友在吟诗作对。



从AI发展趋势来看,未来将实现记忆分层管理,包括短、中、长期记忆,记忆系统从 “单一存储” 向 “分布式认知架构” 演变,记忆管理重点转向“智能筛选与整合”,并在 “记忆” 与 “遗忘”间找到合理的平衡,AI越来越贴近人类的思维特性。




05

AI硬件,即将井喷


在情感陪伴类场景,GLM-Realtime的视频理解与语音交互能力,将有广阔的发展空间。我突然灵光一闪,让智能眼镜跟智能机器人来一场角色扮演游戏,你猜AI能够辨认出对手也是AI吗?



AI与物理世界的融合,将产生具身智能,这也是被行业看好的发展方向,具身智能能够更好地理解和操控现实世界。


具身智能不仅是技术的提升,更是人机交互方式的革新。AI将不再局限于屏幕前的静态交互,而是能够通过机器人或其他智能设备与人类进行更加自然、深入地互动。具身智能的发展,将为教育、医疗、服务等行业带来新的发展机遇。




06

大模型已经进入next level


智谱GLM系列模型的这次升级,带给我很多惊喜,尤其是GLM-Realtime端到端多模态的能力,将AI的应用边界再次拓宽,从语音对话到视频理解,从实时交互到长期记忆,每一个能力都为开发者和用户带来了前所未有的体验。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询