支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


浅谈 AI 产品的交互设计以及 Agent 演进路线

发布日期:2025-03-19 04:20:21 浏览次数: 1579 来源:谭少卿
推荐语

深入解析AI产品交互设计演变,探索Agent的未来路径。

核心内容:
1. 计算机人机交互的四个发展阶段
2. 各阶段交互方式的特点及技术背景
3. 自然人机交互阶段的AI技术应用与趋势

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


 

〇、浅谈 AI 产品的交互设计以及 Agent 演进路线[之一]

“一个创作者最大的诚意,莫过于拿出他自己那些见不得人的手稿。”——达芬奇

一、一起回顾计算机的人机交互演进

有计算机以来,与计算机的交互大致经过了三个阶段:分别是机械式物理交互、命令行终端交互和图形界面交互三个阶段。第四个阶段可以称为自然交互阶段,也就是当下大幕拉开了一角的新阶段。

我们先回顾前三个。

第一个机械式物理交互阶段,受限于早期计算机的硬件实现,最早是拨动计算机的物理开关实现0-1 的输入。然后进入到打孔纸交互,产生的编程语言是FORTRAN,人通过打孔卡提交任务,计算机批量处理后再返回结果。在这个阶段,其交互并不直观,且效率低下,仅限专业人员使用。

第二个命令行交互(CLI,Command-Line Interface),硬件背景是分时操作系统(如UNIX)的诞生,支持多用户同时操作。用户通过键盘输入特定指令(如cd、ls),通过电传打字机或字符终端远程访问主机,实现与计算机的交互。效率提升,但仍需记忆复杂命令,门槛较高。

值得一提的是 Lisp 编程语言,它是继 Fortran 之后的第二种高级编程语言。Lisp 是首个引入 REPL(Read-Eval-Print Loop) 环境的语言,用户可以直接输入表达式并即时看到结果,无需编译和批处理。它是 CLI 交互的早期典范,允许程序员以对话形式与计算机交互。Lisp 的代码即数据特性,使得程序可以动态修改自身,提供了一种极强大的元编程能力。

第三个是图形用户界面(GUI)阶段,随着个人计算机普及,鼠标和图形显示技术成熟。人们通过隐喻设计,图标、窗口、菜单模拟现实办公环境,比如我们现在习以为常的“桌面”“文件夹”“窗口”“菜单”“废纸篓”“回收站”等概念,实际上是物理世界的隐喻。在此阶段,人们可以通过鼠标的点击、拖拽等动作直观控制计算机。极大降低使用门槛,计算机走向大众化。这又反向促进了计算机设备的普及。

此后互联网的兴起、移动设备的普及,依旧是以图形界面交互为主。包括 iPhone 早期的拟物设计指南到后续过渡到扁平化设计,都是有内在的原因的。

回顾与分类,是为了更好的研究,我们的一切知识都是为了更好地描述与预测,框架是可选项,不是唯一项。加上时空是连续的,并不存在前后完全不相关联的事物,现实世界的产品、技术、市场等事物的演进,多是互为因果的。因此分类标准并不唯一,我们在此做了诸多简化。

二、第四阶段:自然人机交互

近十年来,随着传感器技术、AI(自然语言处理、语音识别、计算机视觉)和物联网(IoT)的发展,人机交互逐步趋于无感化,交互将更贴近人类自然行为。智能助手(Siri、Alexa)通过自然语言处理响应用户需求。Kinect、AR/VR设备通过动作捕捉实现沉浸式交互。指纹、面部识别、虹膜扫描用于身份验证。

而两年前 ChatGPT 发布之后,将自然语言处理的诸多技术一法破之:将文本分类、语义理解、实体抽取、代码生成、文本翻译、 文本摘要等诸多自然语言处理(NLP)领域中的问题转变成了文本生成问题、对话的问题。使得人们通过自然语言(也就是日常说话而非特殊命令的方式)与 AI 进行交互,真正成为了可能。

并且由于技术上的突破,多模态的大模型能力理解现实物理世界也成为了可能。随着脑机接口的发展,人机交互甚至会突破一般的物理限制,人机之间难分彼此,实现碳基生命和硅基智慧的大联合。

关于多模态带来的交互设计变化是更为深刻的,一时半会儿也无法尽数。我们在此仅仅浅谈一下主要以大语言模型的 AI 的交互设计,为了方便,后续就简称 AI。

三、AI 产品交互设计的核心

在现在这个当口,多数 LLM 的 AI 的交互依旧是纯文本的,大多是 Markdown 这种带标记的纯文本,有一部分带了图形生成能力。

自然语言交互的优势毋庸多言,但问题也很明显。

语言本身可以视为我们对世界的一种建模。这个建模固然特别强大,强大到坐在窑洞里的伟人,可以通过论持久战完整推演出了整个战争的走势。强大到广告系统通过标签化,可以近似推理出一个人的偏好,实现精准的推荐系统。

但问题在于——我们先不谈语言的遮蔽性这一形而上的问题——复杂的现实与语言之间的维度不对称。我们尝试描述一下这句话。

现实的世界是多维的、复杂和动态,而语言是线性的、符号化的,结构化的。我们日常使用的语言,可以看做是概念的序列,但现实世界的信息量是极大的,我们要用语言描述清楚一个苹果,要想涉及到它的方方面面,几页纸可能都是不够的。我们让 AI 举个例子,仅作参考:

### 要完全描述一个苹果的方方面面需涵盖以下维度:

#### 一、物理属性
1. **几何形态**
   - 三维形状(球形/椭圆形/不规则变形)
   - 表面曲率与凹陷(果脐、梗部)
   - 体积与密度分布
2. **表面特征**
   - 表皮纹理(光滑/粗糙/蜡质层)
   - 颜色渐变与斑点分布(阳光照射形成的色斑)
   - 微观结构(气孔密度、细胞排列)
3. **力学性质**
   - 硬度(果肉与表皮的杨氏模量差异)
   - 弹性形变范围(受压后的恢复能力)
   - 破裂阈值(果皮撕裂的临界应力)

#### 二、感官体验
1. **视觉维度**
   - 光谱反射曲线(精确色度坐标)
   - 光泽度(镜面反射与漫反射比例)
   - 动态光影变化(旋转时的明暗交替)
2. **触觉维度**
   - 温度传导系数(手握时的热交换)
   - 摩擦系数(与不同材质的接触感受)
   - 重量感的空间分布(重心位置)
3. **味觉化学**
   - 糖酸比动态平衡(不同部位的浓度梯度)
   - 多酚类物质的舌面分布感知
   - 后味持续时间与层次变化
4. **嗅觉谱系**
   - 挥发性有机物组成(酯类、醛类比例)
   - 气味分子的扩散速率
   - 温度对芳香释放的影响曲线
5. **听觉特征**
   - 果肉细胞破裂的声波频谱
   - 表皮摩擦产生的白噪声特性
   - 坠落撞击面的共振频率

#### 三、成分结构
1. **分子组成**
   - 水分子的氢键网络结构
   - 纤维素微纤丝排列方向
   - 抗氧化剂电子云分布
2. **细胞架构**
   - 薄壁细胞与石细胞比例
   - 维管束的拓扑连接方式
   - 细胞液泡的渗透压梯度
3. **生物化学**
   - 酶促褐变反应路径
   - 乙烯释放的时空模式
   - 光合产物的转运轨迹

#### 四、时空存在
1. **生长轨迹**
   - 分生组织的分裂时序
   - 昼夜节律对糖分积累的影响
   - 病虫害侵袭的疤痕形成史
2. **环境印记**
   - 土壤微量元素的吸收图谱
   - 降雨量在果皮厚度上的编码
   - 传粉昆虫的DNA残留信息
3. **衰变进程**
   - 淀粉转化为糖的动力学方程
   - 细胞壁降解的级联反应
   - 微生物群落的演替规律

#### 五、文化符号
1. **神话原型**
   - 伊甸园叙事中的禁忌隐喻
   - 北欧神话里的永生象征
   - 华夏文化中的平安谐音
2. **艺术再现**
   - 塞尚画作中的几何解构
   - 俳句中的季语投射
   - 超现实主义摄影的物性颠覆
3. **认知框架**
   - 儿童识物教育的原型样本
   - 机器学习中的分类基准
   - 现象学分析的意向对象

#### 六、系统关联
1. **生态网络**
   - 碳足迹的生命周期评估
   - 授粉生态系统的服务价值
   - 废弃果核的种子银行功能
2. **经济链条**
   - 全球冷链物流的熵增过程
   - 期货市场中的价格波动模型
   - 劳动价值在采摘环节的凝结
3. **技术中介**
   - CRISPR编辑的潜在性状
   - 气调贮藏的分子调控机制
   - 3D打印食品的结构仿生

#### 七、量子视角
1. **亚原子层面**
   - 碳同位素分布概率云
   - 电子自旋在果酸中的耦合
   - 量子隧穿效应对香气的贡献
2. **哲学思辨**
   - 观测行为对苹果实在性的影响
   - 语言描述引发的量子退相干
   - 本体论地位的不确定性原理


但我们平时大概只会说这是一个苹果。所以,用语言表达现实世界的过程,是一个 “降维” 的过程。而人们理解语言,透过语言去理解背后的“现实”,是需要 “升维” 操作的,甚至借助隐喻、对照等 “转移” 的手段。这一点在这本书里的哲学篇有较为详细的论述。

而这个降维同样会带来交互上的问题,即解读的难度。

比如“波粒二象性”,并不是说很多人理解的那样光子既是波又是粒子,而是说光子的表现可以用波的特性去刻画,也可以用粒子的特性去刻画。它是在不同的条件下有不同的表现。但因为这个术语的表达,会让不了解这个实验的人们,望文生义成既是波又是粒子,好像变得极为玄学与可怕,但这不过是我们认知系统里观测与表达的局限性。

而要破除这种误解看上去好像并不复杂,因为只需要实实在在地了解实验的过程即可。但是每个人的时间、精力都是有限的,这却又很麻烦。

所以,纯粹基于自然语言的交互显然是效率低下的。这也是为什么人们要想准确表达一件事情,需要经过数十年的语言上的训练。

插句题外话,这种使用语言建模的能力,并不会随着 AI 的“推理能力”变强,而变得无关紧要。AI 的变强,只是为我们提供了一个更高的起点。


四、AI 交互设计的核心理念之一

但同时,我们也会发现,因为代码的可验证性,在 AI 的各项能力里边,代码能力普遍很强。
所以,为什么不发挥好 AI 的代码生成能力,在交互的过程中,临时生成最符合当前情境的交互界面呢?

这不是否认图形界面和命令行的交互价值,而是说,系统可以在需要的时候,自己生产出图形界面或者命令行界面。

几个例子

比如,我们要 AI 推荐一个家庭聚会的菜谱。

它首先不应该是回复大段的 Markdown 文本,而应该是一个精美的可视化、可图形化操作菜单,然后附带购物清单。你可以手动删除一些菜品、新增一些菜品;或者对烹饪用具提出意见,要求采用手头的煎锅而非烤箱制作某些食物;或者直接生成一个临时的“应用”,根据你的聚会人数、过敏信息、口味偏好、时令节气等,设计菜谱、自动采购所有食材、推送通知,在制作的时候在旁边给你分步骤的闹钟提醒(腌制10 分钟,叮,然后煎 2 分钟,叮)等等。

而如果用户要求语音交互,那么它应该是一个更为恰当的顾问,将整个菜谱作为聊天的内容与用户建议而不是朗读整篇 Markdown 文档,这个过程就像你在餐厅跟私人主厨点菜一样,他会给你建议与决策支持,以及记下你的选择为安排人为你下单原材料,并给你呈现最终的大餐安排。

下一步,如果联动了人形机器人,它们会真的给你做好之后,同步给你结果,就像真正的“大管家”那样。

再比如,用 AI 为你创作一篇文章,自然也不应该只给你回复大段的文本,然后你发指令告诉它修改哪一段。它也可以生成一个符合当前的编辑器的交互界面,如果是公文,就给你一个公文的编辑器界面,并且其中的文章符合公文的格式,并提供一些公文写作会专门用到的辅助工具,诸如政策查询、一次性排版、公文风格的封面设计。

如果是小红书帖子,那么字体、格式、生成的图片,自然也都是小红书风格的,界面大小都可以实时预览。

如果你要创作思维导图,也不是只给你 Markdown 格式的大纲,而是一个符合思维导图的操作界面。然后可以随意切换到任意格式,呈现为可交互式的网页、转换为符合论文写作排版要求的格式、或者某个论文杂志的排版要求。不一而足。如果你要做一个市场调研,那么它可以不止是搜索资料、思考整理给你一个 PDF,除了给你呈现一个可交互式的报告,也可以生成该报告的分享和多人协作点评。以及可以切换各种动态化的交互界面。


所以,AI 整合各种交互能力,给你当前最恰当的交互,是更合适的。而以上这些假想案例,在当前的能力下,基于前端代码生成能力和 API 的整合([23 年对 AI 编程推演的公众号文章链接]比如 MCP 协议、computer_use 接口、诸多前端的库,或者就是直接自己发明轮子等)都是可以实现的了。

以上呈现的还是 AI “被动响应”的模式,我在 16 年,设计过一套当时技术条件下可以实现的助理,在手机上读取用户当前手机界面上的内容,判断意图、抽取实体后,结合用户的行为数据推荐服务,后来以“智慧识屏”的能力在安卓上得以实现。

而随着技术的更迭,现在已经系统性地具备了主动感知、主动推理、主动代理的“主动服务”模式了。

它应当是一种全局化的智能服务,做到真正的跨终端智能。

五、一种手机终端的实现方式--以镜像手机/PC/车机/IoT/机器人等终端的云服务实现端云协同

手机作为一种终端,但会镜像到服务端,这样在云上,即可访问你的所有私人数据。PC、汽车、手表、机器人、IoT 设备等终端是一样的实现。这样一来你重要的 profile 和 preference 会被系统天然感知,鉴权逻辑也自然成立。同时, 基于私人的 profile 和 preference 以及事件触发,AI 将能为你提供真正的个性化服务。

我们还是举几个例子来稍微展开一下想象。

健康场景

系统“健康服务”读取 profile 里的健康数据,发现存在体重突增、工作压力过大久坐与缺乏运动、近期外卖高糖高脂,然后结合历史的基因检测报告,存在糖代谢异常的风险,可能诱发二型糖尿病糖尿病。

告知风险并询问是否需要体检,获得用户许可之后自动在云端依据个人日程挂号,挂号的时候查询当地的对口医院以及科室。

然后创建日程并同步到手机上。And more。


出行场景

系统里的“天气服务”可以主动感知天气的变化,系统结合用户 profile 里的健康数据 和 preference 里的穿衣、出行偏好,以及第二天要出差的事件。告诉你明天出发地比如上海会突然降温十度,目的北京地正好跟降温之后的温度一样,请添加一件抓绒衣物保暖即可。可以是手机终端的一种强提醒。

而更靠前一点,如果买完票,接到了值机提醒的事件通知,则读取 profile 里的手机号等信息进行登录鉴权 ,读取 preference 里的座位偏好,为你值机选座,在云端完成。完毕之后在终端进行告知。

而以上交互的具体过程,都是采用上一节[交互设计的理念]进行具体展开。

A little more

是的,在多模态的 AI 技术、机器人技术等技术的发展背景下,我们的一切产品设计和想象需要重构。

就像这篇文章,我不需要去工具栏找字数统计的按钮,我可以直接问“当前这篇文章多少字”。它甚至不应该是一个字数统计的功能等待被调用,而是在写作过程中作为感知层助于自动构建 context——字数、情感、逻辑等等——AI 时代的应用理当如此,以此在呼叫是响应、主动分析主动响应——多模态感知视觉文本声音。更进一步,这个局部的 context 应该是全局可共享的-这个全局不只是单一硬件——做好隐私管理即可,如此将显著降低用户的认知成本,实现全局的跨模态“连续对话”。

翻译软件也完全不需要 tap and talk,just talk together,也可以是“翻译这段话”“翻译这个路标”“翻译他刚说的那句话,并找一下中文语境的典故”。

为了实现这些交互,就需要对应的设计原则:对话的可视性-含推理过程可见、全局上下文管理和注意力调度、对话关键点中断、置信度可见和边界声明,以及可全局编程生成新的能力和反脆弱设计。“软件”必须吃掉所有的硬件资源。

我们当然也不必通过诸多的 App 去访问背后的服务。Adminbot 和Appbot 或者你叫 Agent 也罢,去自然而然地实现。“模型”可能吃掉所有的场景。

插入一篇[23 年对 Agent 平台的一种实现方式探索] https://m.okjike.com/originalPosts/64df039aaac630c848e699ef


六、重新评估一切价值

“历史不会重复,但会押韵”,前文抛砖引玉,给出了一点回顾与立足于现实的想象,尝试吟诵出其中的一种韵脚。

AI 时代,大家说的所有的场景都值得重做一遍,在这个值得重做里边,因为全新的技术的实现带来的一系列变化,从产品、交互的角度,有必要重新评估哪些关键要素发生了变化,哪些关键环节变得不再必要,有什么样的产品架构、技术架构,来容纳从旧到新的所有产品、技术特长,是一个新的问题。

而这个重新评估和想象,是不分行业、不分领域和场景的。宏观上的必然性与微观的不确定性,在这个时间点上,以不同的尺度交织在了一起。

语言犹如浮空之物,我们凭借它俯瞰迷雾森林,描绘未见的图景。在可表达与不可表达的张力中,扩大我们与世界的交互界面。

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询