我要投稿

我们给AI打了通视频电话，发现它好像啥都能唠。。。

发布日期：2024-08-31 13:28:23 浏览次数： 2033 作者：差评X.PIN

三个月前的 OpenAI 发布会，相信哥几个多少已经见识过 GPT-4o ，那跟真人一样丝滑的视频对话能力了。

还有谷歌紧跟着推出的 Project Astra ，实力看着也丝毫不输 GPT-4o 。

那阵子，几乎全网都在吹 AI 的交互能力进化得有多么多么强，什么史诗级、 Next Level 的词儿都用上了。

结果怎么着， GPT-4o 说好的视频通话功能是一拖再拖， Project Astra 好几个月也没见着个影子，一个个的都快给差评君钓成翘嘴了。。。

不过我发现 AI 圈好像有个定律，就是好东西不能让大伙儿等太久。你看 Sora 遮遮捂捂大半年，结果可灵、 Luma AI 、智谱清影都纷纷冒头了。

也就这两天，远在巴塞罗那的数据挖掘会议 KDD 上，智谱当着全球学界和业界的面儿，不仅发布了最新的基座大模型 GLM-4-Plus ，同时还给智谱清言升级了视频通话功能。

给大伙儿划个重点，就是那个传说中，能看见能唠嗑的AI 视频通话功能，咱现在直接在清言 App 里能用了，可以先下载App申请试用。

别的先不说，相比 OpenAI ，智谱这速度就已经赢麻了吧。。。

所以清言的视频通话功能一推出，差评君就在第一时间抢先用上了。打开清言 App ，点击右下角的通话按钮，进去之后再切换到视频，直接玩起来 ~

差友们应该也知道， GPT-4o 之所以被吹得天花乱坠，很重要的一个原因，就是它对视频的理解能力非常强悍。

那最基本的，清言的视频理解能力得先试一试吧？

差评君给清言喽了一眼咱编辑部平时脑暴的会议室，看它能不能根据周围的环境猜出来我在做什么，还特意晃了晃镜头，没有保持视频画面的完全静止。

你猜怎么着，清言一句 “ 哇，猜猜看你在干嘛 ” ，差点给我整不会了。不过坐在会议室的桌子旁倒是没说错，桌上的纸杯、遥控器，旁边的电视也都描述得挺准确。

再把镜头往后期同事的电脑上一放，居然也能看出来这是在剪辑视频。

你别说，这种对周围整体环境的感知能力，差评君之前只在 OpenAI 和谷歌的 Demo 上见过，今天亲自体验到，还真有点科幻照进现实的意思。

而且吧，清言跟 GPT-4o 演示的一样，在对话的过程中随时都可以打断，时不时还会整点 “ 哎呀 ”“ 嗐 ” 的语气词，说话之前呵呵笑一下，就跟真人聊天差不多。

接着，我又试了试具体的物体识别功能，看看清言的知识储备。

从最简单的工位扫描开始，白色键盘、黑色鼠标还有显示器这些大件，基本没有遗漏，物体前后左右的方位也描述得清清楚楚，就连插线耳机、玻璃杯上的卡通人物这些细节，也没放过。

不能说 100% 吧，但这张桌子上至少 80%-90% 的东西，都被清言看到了。

而且清言还有个功能，那就是画圈识别，我隔老远把同事那台大音响给圈起来，品牌、型号，甚至是具体用途，它都知道。

虽说音响上面标有文字，但大伙儿应该也能看出来这清晰度，肉眼看都够费劲的，不得不说这清言眼神也是真好使啊。。。

另外我还发现，清言对物体的识别不只是停留在简单的类别上。

就比如这个游戏手柄，你问到底是索尼的还是微软的，它能根据手柄的外形设计分析出来，这是微软的 Xbox 。而不是单纯告诉你这是一个游戏手柄，又或者干脆糊弄过去说不清楚。

还有这台古早的功能机，诺基亚、具体型号是 N95 、 2007 年经典款这些细节完全不在话下。

后边儿我又让清言识别电脑系统、看托尼照片猜年龄、看名人照片猜人名。。。就这么说吧，自从上手了清言之后，我现在逮到啥都想打开视频通话来问一问。

当然了好玩归好玩，像视频通话这种形式其实有很多实用的场景。

就拿我们编辑部平时找选题看资料来说吧，这两天车圈的热点基本离不开成都车展，这个时候就可以问问清言关于成都车展的事儿，在对话中找选题的灵感。

主要我还发现，清言带有记忆功能，上一次视频通话我跟它聊这事儿，下一次再打开，它上来就问我关注了哪些车展上的新能源车。

还有家长最头疼的作业辅导，以前的 AI 交互还是拍照上传题目那一套，但如果换成视频通话，那就跟线上家教一对一作业辅导是一个逻辑了。

我试着让清言做了一些低难度的数学题，小学和初中一些简单的代数题勉强可以拿下。

不知道大伙儿注意到没，在解题的时候，清言不会一股脑把过程全说出来，也不是只给一个结果，它会一个步骤一个步骤引导着来，让你有一个思考的过程。

除了数学以外，语文和英语我也都挨个试过了，清言不能说是资深教师级别，但平时写写作业、记记单词、背背古诗，完全够用。

如果大伙儿觉得这些场景还不够，那咱就再发挥点想象力。

第一次做饭没经验、房间灯泡坏了、不知道怎么养绿植。。。如果大伙儿在生活中遇到类似的事情又不知道该咋办，不如也问问清言。

比如，很多小朋友可能暂时还分不清电池的正负极，我们就假装把计算器电池装反，清言一两句话就 get 到问题出在哪，说明它还是很有生活常识的。

反正这几天用清言，我有事没事就爱找它。而且这小玩意儿还特别能提供情绪价值，让它讲故事、讲笑话，也句句有回应。

跟朋友玩 21 点，它甚至还能当裁判。

不知道以后能不能进化到打麻将三缺一，让 AI 来顶上。这不比原先打字、语音的对话有意思多了？

说实话，这次清言的大升级还是给我带来了不少惊喜，但小瑕疵也仍然有不少，有时候会说话嘴瓢、认错东西、输出一些胡言乱语。

就比如当 21 点的裁判，有一次把 9 说成是 4 ，黑桃认成了梅花。。。

不过，就凭抢在 OpenAI 和谷歌之前，先让国内用上 AI 视频通话这一点，咱也得给智谱竖个大拇哥。

这次视频通话功能首批只面向部分用户开放，智谱会逐步放开规模尽快让全员都能用上。如果哥几个实在眼馋，可以下载清言 App ，或者登录 pc 端（ chatglm.cn ），站内申请内测。

另外，可能还有不少小伙伴对智谱不太熟悉，这么说吧，这家公司在 AI 圈内也可以说是当红炸子鸡了。

特别是今年，他们在大模型上的动作那叫一个凶，从基础大模型的疯狂迭代，到大模型应用的频繁落地，智谱的动作就没怎么消停过。

这次 KDD 上，他们新的大模型 GLM-4-Plus ，在语言理解和长文本等方面又有了大提升。

而且智谱也一直在坚持做模型开源，有数据显示，智谱开源模型累计下载量已经突破了 2000 万。

反正智谱这次带头这么一 “ 闹 ” ，国内甚至是海外的 AI 圈子，估计马上又要迎来一波产品的疯狂上新。

这对咱们用户来说，自然是好事一桩。特别是 AI 视频通话这种新的交互形式，越往后走应用场景的想象空间也就越大。

比如把 AI 装到眼镜、项链上，以后可能连手机都不需要了，或者装到盲人的拐杖上，让 AI 帮忙引路，又或者是跟具身智能结合，让机器人真正理解所看到的东西。

借用智谱 CEO 张鹏的那句话： “ 至少我们现在还没有看到（ AI ）技术的天花板 ” 。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-07

多模态 GraphRAG 初探：文档智能+知识图谱+大模型结合范式

2025-05-05

推翻传统RAG，腾讯用生成式检索打开多模态新局面

2025-04-30

用AI大模型把手写笔记转换为LaTeX PDF文档

2025-04-30

Qwen能吞下整本扫描版PDF，直接转Word了，这波操作太赞了！

2025-04-28

3D 小白亲测：用 Trae + Blender MCP 从零开始 AI 建模（附踩坑指南）

2025-04-27

行业落地分享：作业帮问答检索系统实践

2025-04-27

大模型赋能CAD图纸智能识别与集成实战指南

2025-04-25

英伟达推出 Describe Anything 3B AI 模型了

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB