我要投稿

智谱发布新模型，“实时多模态”惊艳所有人

发布日期：2025-01-22 14:30:06 浏览次数： 1588 来源：技术领导力

2025年开春，智谱GLM系列模型上新升级了，这次发布可以总结为一句话：模型能力越来越强，对开发者越来越普惠。本次发布当中，尤其让我眼前一亮的是端到端多模态模型GLM-Realtime，简单上手测试之后，我觉得大模型已经进入到了next level，下面跟随K哥一起来抢先体验吧。

行业首个端到端多模态模型，初体验

根据智谱官方的介绍，GLM-Realtime是一个端到端多模态大模型，具有近乎实时的视频理解与端到端的语音交互能力，创新性地提供了清唱功能，并且支持长达2分钟的记忆以及Function Call功能。

视频理解能力就好比AI有了眼睛，输入的信息更丰富了；端到端的语音交互，可以随时打断，交互方式更接近人类，清唱更是独树一帜的能力；记忆让AI能够处理更多时间跨度的信息；Function Call功能，通过调用外部知识库，拓展了AI的知识边界。

GLM-Realtime API 已经在智谱AI开放平台上线，现阶段可以免费调用，对于广大个人开发者来说，简直就是送福利。网址如下：

https://bigmodel.cn?utm_source=0103&utm_campaign=2025q1&_channel_track_key=FLc6U2DC

下面我们选择几个场景，做些小应用，更深入地探索GLM-Realtime的能力。

不会唱歌的AI，不是好Chatbot

先来试试GLM-Realtime的语音对话能力。在智谱AI开放平台上注册好账号后，进入控制台，创建一个API key，就可以对接口进行调用了。以下是我的客户端鉴权代码：

服务端的鉴权代码：

接下来实现接口调用，通过WebSocket连接建立与接口之间的双向通信。

设计一个简单的语音对话界面，能够启动和停止语音对话。除了对话，现在GLM-Realtimeg已经会唱歌了。

语音对话界面的实现代码，如下：

程序打包发布，现在就来看看实际运行效果吧。

不得不说，AI唱得真好，比我强太多了。

AI帮你看见更大的世界

接下来，试试GLM-Realtime的视频理解能力，客户端和服务端鉴权代码跟前面一样，就不展示了。还需要设计一个简单的视频交互界面：

（效果来自智谱清言，已支持视频通话）

以android端App应用为例，代码实现如下：

服务端传入视频、音频内容，返回音频，代码实现如下：

将以上代码运行起来，看下服务端运行时日志：

再看看客户端运行时日志：

完成代码调试后，就可以打包发布了，一起来看看效果。

（效果来自智谱清言，已支持视频通话）

当AI有了记忆

当GLM-Realtime强大的视频理解能力，搭载到智能眼镜上，又会激发出怎样的创新和创意呢？智谱携手INMO影目，进行了有趣的探索。戴上智能眼镜，轻轻一按开启对话模式，这时GLM-Realtime跟你看到的画面是一样的，来看看实测的效果。

你也被智能眼镜惊艳到了吧？接下来，还有更加震撼的，在GLM-Realtime长期记忆能力的加持下，你能够对2分钟内看到的画面进行提问。春节快到了，我让AI帮我写对联，对AI来说小菜一碟。体验下来，交互方式非常有趣，就好像跟一位学识渊博的朋友在吟诗作对。

从AI发展趋势来看，未来将实现记忆分层管理，包括短、中、长期记忆，记忆系统从 “单一存储” 向 “分布式认知架构” 演变，记忆管理重点转向“智能筛选与整合”，并在 “记忆” 与 “遗忘”间找到合理的平衡，AI越来越贴近人类的思维特性。

AI硬件，即将井喷

在情感陪伴类场景，GLM-Realtime的视频理解与语音交互能力，将有广阔的发展空间。我突然灵光一闪，让智能眼镜跟智能机器人来一场角色扮演游戏，你猜AI能够辨认出对手也是AI吗？

AI与物理世界的融合，将产生具身智能，这也是被行业看好的发展方向，具身智能能够更好地理解和操控现实世界。

具身智能不仅是技术的提升，更是人机交互方式的革新。AI将不再局限于屏幕前的静态交互，而是能够通过机器人或其他智能设备与人类进行更加自然、深入地互动。具身智能的发展，将为教育、医疗、服务等行业带来新的发展机遇。

大模型已经进入next level

智谱GLM系列模型的这次升级，带给我很多惊喜，尤其是GLM-Realtime端到端多模态的能力，将AI的应用边界再次拓宽，从语音对话到视频理解，从实时交互到长期记忆，每一个能力都为开发者和用户带来了前所未有的体验。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

作为微软开源的全新架构，Florence-2 以其小巧的体积、炸裂的性能以及对多任务的统一处理方式，在视觉理解领域掀起了一阵旋风

2024-06-26

AGI｜基于Joint BERT模型的意图识别技术实践

2024-07-21

【PPT+讲稿+笔记】张俊林：多模态大模型：系统、趋势与问题

2024-06-10

大家都在问

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

如何提取手写票据信息？

2024-12-09

Encord全球首发多模态数据标注编辑器，AI数据开发技术有哪些新趋势？

2024-11-25

大模型能做对数学题吗？

2024-09-26

实测豆包AI视频模型Seaweed，击败Sora的含金量到底有多少？

2024-09-26

多模态大模型中，多模态融合后怎样知道最终结果受哪种模态影响更大？

2024-09-01

从AIGC短剧到金融、零售应用，视频生成大模型价值几何？

2024-07-15

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯