微信扫码
与创始人交个朋友
我要投稿
智谱新模型发布,多模态能力惊艳!行业首个端到端模型,为开发者送福利。 核心内容: 1. 介绍端到端多模态模型的创新能力 2. 阐述模型的免费调用及相关代码 3. 展示模型的语音对话和唱歌功能
2025年开春,智谱GLM系列模型上新升级了,这次发布可以总结为一句话:模型能力越来越强,对开发者越来越普惠。本次发布当中,尤其让我眼前一亮的是端到端多模态模型GLM-Realtime,简单上手测试之后,我觉得大模型已经进入到了next level,下面跟随K哥一起来抢先体验吧。
行业首个端到端多模态模型,初体验
根据智谱官方的介绍,GLM-Realtime是一个端到端多模态大模型,具有近乎实时的视频理解与端到端的语音交互能力,创新性地提供了清唱功能,并且支持长达2分钟的记忆以及Function Call功能。
视频理解能力就好比AI有了眼睛,输入的信息更丰富了;端到端的语音交互,可以随时打断,交互方式更接近人类,清唱更是独树一帜的能力;记忆让AI能够处理更多时间跨度的信息;Function Call功能,通过调用外部知识库,拓展了AI的知识边界。
GLM-Realtime API 已经在智谱AI开放平台上线,现阶段可以免费调用,对于广大个人开发者来说,简直就是送福利。网址如下:
https://bigmodel.cn?utm_source=0103&utm_campaign=2025q1&_channel_track_key=FLc6U2DC
下面我们选择几个场景,做些小应用,更深入地探索GLM-Realtime的能力。
不会唱歌的AI,不是好Chatbot
先来试试GLM-Realtime的语音对话能力。在智谱AI开放平台上注册好账号后,进入控制台,创建一个API key,就可以对接口进行调用了。以下是我的客户端鉴权代码:
服务端的鉴权代码:
接下来实现接口调用,通过WebSocket连接建立与接口之间的双向通信。
设计一个简单的语音对话界面,能够启动和停止语音对话。除了对话,现在GLM-Realtimeg已经会唱歌了。
语音对话界面的实现代码,如下:
程序打包发布,现在就来看看实际运行效果吧。
不得不说,AI唱得真好,比我强太多了。
AI帮你看见更大的世界
接下来,试试GLM-Realtime的视频理解能力,客户端和服务端鉴权代码跟前面一样,就不展示了。还需要设计一个简单的视频交互界面:
(效果来自智谱清言,已支持视频通话)
以android端App应用为例,代码实现如下:
服务端传入视频、音频内容,返回音频,代码实现如下:
将以上代码运行起来,看下服务端运行时日志:
再看看客户端运行时日志:
完成代码调试后,就可以打包发布了,一起来看看效果。
(效果来自智谱清言,已支持视频通话)
当AI有了记忆
当GLM-Realtime强大的视频理解能力,搭载到智能眼镜上,又会激发出怎样的创新和创意呢?智谱携手INMO影目,进行了有趣的探索。戴上智能眼镜,轻轻一按开启对话模式,这时GLM-Realtime跟你看到的画面是一样的,来看看实测的效果。
你也被智能眼镜惊艳到了吧?接下来,还有更加震撼的,在GLM-Realtime长期记忆能力的加持下,你能够对2分钟内看到的画面进行提问。春节快到了,我让AI帮我写对联,对AI来说小菜一碟。体验下来,交互方式非常有趣,就好像跟一位学识渊博的朋友在吟诗作对。
从AI发展趋势来看,未来将实现记忆分层管理,包括短、中、长期记忆,记忆系统从 “单一存储” 向 “分布式认知架构” 演变,记忆管理重点转向“智能筛选与整合”,并在 “记忆” 与 “遗忘”间找到合理的平衡,AI越来越贴近人类的思维特性。
AI硬件,即将井喷
在情感陪伴类场景,GLM-Realtime的视频理解与语音交互能力,将有广阔的发展空间。我突然灵光一闪,让智能眼镜跟智能机器人来一场角色扮演游戏,你猜AI能够辨认出对手也是AI吗?
AI与物理世界的融合,将产生具身智能,这也是被行业看好的发展方向,具身智能能够更好地理解和操控现实世界。
具身智能不仅是技术的提升,更是人机交互方式的革新。AI将不再局限于屏幕前的静态交互,而是能够通过机器人或其他智能设备与人类进行更加自然、深入地互动。具身智能的发展,将为教育、医疗、服务等行业带来新的发展机遇。
大模型已经进入next level
智谱GLM系列模型的这次升级,带给我很多惊喜,尤其是GLM-Realtime端到端多模态的能力,将AI的应用边界再次拓宽,从语音对话到视频理解,从实时交互到长期记忆,每一个能力都为开发者和用户带来了前所未有的体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-22
统一多模态Embedding, 通义实验室开源GME系列模型
2025-01-22
智谱悄悄上线清影2.0,四维能力已达T0,新晋AI视频性价比之神
2025-01-22
腾讯混元3D AI 引擎上线
2025-01-22
阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一!
2025-01-22
Kimi 发布k1.5思考模型:首个达到o1满血水平的多模态模型,还有完整训练技术报告
2025-01-18
谷歌发布Gemini2.0,开启Agent新时代
2025-01-17
我构建多Agent平台的探索与愿景
2025-01-09
Github揽获1.6K星!南大、腾讯发布VITA-1.5: 迈向GPT-4o级实时视频-语音交互
2024-09-12
2024-06-14
2024-05-30
2024-08-06
2024-06-17
2024-08-30
2024-04-21
2024-06-26
2024-07-21
2024-06-10