我要投稿

浅谈 AI 产品的交互设计以及 Agent 演进路线

发布日期：2025-03-19 04:20:21 浏览次数： 1758 作者：谭少卿

〇、浅谈 AI 产品的交互设计以及 Agent 演进路线[之一]

“一个创作者最大的诚意，莫过于拿出他自己那些见不得人的手稿。”——达芬奇

一、一起回顾计算机的人机交互演进

有计算机以来，与计算机的交互大致经过了三个阶段：分别是机械式物理交互、命令行终端交互和图形界面交互三个阶段。第四个阶段可以称为自然交互阶段，也就是当下大幕拉开了一角的新阶段。

我们先回顾前三个。

第一个机械式物理交互阶段，受限于早期计算机的硬件实现，最早是拨动计算机的物理开关实现0-1 的输入。然后进入到打孔纸交互，产生的编程语言是FORTRAN，人通过打孔卡提交任务，计算机批量处理后再返回结果。在这个阶段，其交互并不直观，且效率低下，仅限专业人员使用。

第二个命令行交互（CLI，Command-Line Interface），硬件背景是分时操作系统（如UNIX）的诞生，支持多用户同时操作。用户通过键盘输入特定指令（如cd、ls），通过电传打字机或字符终端远程访问主机，实现与计算机的交互。效率提升，但仍需记忆复杂命令，门槛较高。

值得一提的是 Lisp 编程语言，它是继 Fortran 之后的第二种高级编程语言。Lisp 是首个引入 REPL（Read-Eval-Print Loop）环境的语言，用户可以直接输入表达式并即时看到结果，无需编译和批处理。它是 CLI 交互的早期典范，允许程序员以对话形式与计算机交互。Lisp 的代码即数据特性，使得程序可以动态修改自身，提供了一种极强大的元编程能力。

第三个是图形用户界面（GUI）阶段，随着个人计算机普及，鼠标和图形显示技术成熟。人们通过隐喻设计，图标、窗口、菜单模拟现实办公环境，比如我们现在习以为常的“桌面”“文件夹”“窗口”“菜单”“废纸篓”“回收站”等概念，实际上是物理世界的隐喻。在此阶段，人们可以通过鼠标的点击、拖拽等动作直观控制计算机。极大降低使用门槛，计算机走向大众化。这又反向促进了计算机设备的普及。

此后互联网的兴起、移动设备的普及，依旧是以图形界面交互为主。包括 iPhone 早期的拟物设计指南到后续过渡到扁平化设计，都是有内在的原因的。

回顾与分类，是为了更好的研究，我们的一切知识都是为了更好地描述与预测，框架是可选项，不是唯一项。加上时空是连续的，并不存在前后完全不相关联的事物，现实世界的产品、技术、市场等事物的演进，多是互为因果的。因此分类标准并不唯一，我们在此做了诸多简化。

二、第四阶段：自然人机交互

近十年来，随着传感器技术、AI（自然语言处理、语音识别、计算机视觉）和物联网（IoT）的发展，人机交互逐步趋于无感化，交互将更贴近人类自然行为。智能助手（Siri、Alexa）通过自然语言处理响应用户需求。Kinect、AR/VR设备通过动作捕捉实现沉浸式交互。指纹、面部识别、虹膜扫描用于身份验证。

而两年前 ChatGPT 发布之后，将自然语言处理的诸多技术一法破之：将文本分类、语义理解、实体抽取、代码生成、文本翻译、文本摘要等诸多自然语言处理(NLP)领域中的问题转变成了文本生成问题、对话的问题。使得人们通过自然语言（也就是日常说话而非特殊命令的方式）与 AI 进行交互，真正成为了可能。

并且由于技术上的突破，多模态的大模型能力理解现实物理世界也成为了可能。随着脑机接口的发展，人机交互甚至会突破一般的物理限制，人机之间难分彼此，实现碳基生命和硅基智慧的大联合。

关于多模态带来的交互设计变化是更为深刻的，一时半会儿也无法尽数。我们在此仅仅浅谈一下主要以大语言模型的 AI 的交互设计，为了方便，后续就简称 AI。

三、AI 产品交互设计的核心

在现在这个当口，多数 LLM 的 AI 的交互依旧是纯文本的，大多是 Markdown 这种带标记的纯文本，有一部分带了图形生成能力。

自然语言交互的优势毋庸多言，但问题也很明显。

语言本身可以视为我们对世界的一种建模。这个建模固然特别强大，强大到坐在窑洞里的伟人，可以通过论持久战完整推演出了整个战争的走势。强大到广告系统通过标签化，可以近似推理出一个人的偏好，实现精准的推荐系统。

但问题在于——我们先不谈语言的遮蔽性这一形而上的问题——复杂的现实与语言之间的维度不对称。我们尝试描述一下这句话。

现实的世界是多维的、复杂和动态，而语言是线性的、符号化的，结构化的。我们日常使用的语言，可以看做是概念的序列，但现实世界的信息量是极大的，我们要用语言描述清楚一个苹果，要想涉及到它的方方面面，几页纸可能都是不够的。我们让 AI 举个例子，仅作参考：

### 要完全描述一个苹果的方方面面需涵盖以下维度：

#### 一、物理属性
1. **几何形态**
   - 三维形状（球形/椭圆形/不规则变形）
   - 表面曲率与凹陷（果脐、梗部）
   - 体积与密度分布
2. **表面特征**
   - 表皮纹理（光滑/粗糙/蜡质层）
   - 颜色渐变与斑点分布（阳光照射形成的色斑）
   - 微观结构（气孔密度、细胞排列）
3. **力学性质**
   - 硬度（果肉与表皮的杨氏模量差异）
   - 弹性形变范围（受压后的恢复能力）
   - 破裂阈值（果皮撕裂的临界应力）

#### 二、感官体验
1. **视觉维度**
   - 光谱反射曲线（精确色度坐标）
   - 光泽度（镜面反射与漫反射比例）
   - 动态光影变化（旋转时的明暗交替）
2. **触觉维度**
   - 温度传导系数（手握时的热交换）
   - 摩擦系数（与不同材质的接触感受）
   - 重量感的空间分布（重心位置）
3. **味觉化学**
   - 糖酸比动态平衡（不同部位的浓度梯度）
   - 多酚类物质的舌面分布感知
   - 后味持续时间与层次变化
4. **嗅觉谱系**
   - 挥发性有机物组成（酯类、醛类比例）
   - 气味分子的扩散速率
   - 温度对芳香释放的影响曲线
5. **听觉特征**
   - 果肉细胞破裂的声波频谱
   - 表皮摩擦产生的白噪声特性
   - 坠落撞击面的共振频率

#### 三、成分结构
1. **分子组成**
   - 水分子的氢键网络结构
   - 纤维素微纤丝排列方向
   - 抗氧化剂电子云分布
2. **细胞架构**
   - 薄壁细胞与石细胞比例
   - 维管束的拓扑连接方式
   - 细胞液泡的渗透压梯度
3. **生物化学**
   - 酶促褐变反应路径
   - 乙烯释放的时空模式
   - 光合产物的转运轨迹

#### 四、时空存在
1. **生长轨迹**
   - 分生组织的分裂时序
   - 昼夜节律对糖分积累的影响
   - 病虫害侵袭的疤痕形成史
2. **环境印记**
   - 土壤微量元素的吸收图谱
   - 降雨量在果皮厚度上的编码
   - 传粉昆虫的DNA残留信息
3. **衰变进程**
   - 淀粉转化为糖的动力学方程
   - 细胞壁降解的级联反应
   - 微生物群落的演替规律

#### 五、文化符号
1. **神话原型**
   - 伊甸园叙事中的禁忌隐喻
   - 北欧神话里的永生象征
   - 华夏文化中的平安谐音
2. **艺术再现**
   - 塞尚画作中的几何解构
   - 俳句中的季语投射
   - 超现实主义摄影的物性颠覆
3. **认知框架**
   - 儿童识物教育的原型样本
   - 机器学习中的分类基准
   - 现象学分析的意向对象

#### 六、系统关联
1. **生态网络**
   - 碳足迹的生命周期评估
   - 授粉生态系统的服务价值
   - 废弃果核的种子银行功能
2. **经济链条**
   - 全球冷链物流的熵增过程
   - 期货市场中的价格波动模型
   - 劳动价值在采摘环节的凝结
3. **技术中介**
   - CRISPR编辑的潜在性状
   - 气调贮藏的分子调控机制
   - 3D打印食品的结构仿生

#### 七、量子视角
1. **亚原子层面**
   - 碳同位素分布概率云
   - 电子自旋在果酸中的耦合
   - 量子隧穿效应对香气的贡献
2. **哲学思辨**
   - 观测行为对苹果实在性的影响
   - 语言描述引发的量子退相干
   - 本体论地位的不确定性原理

但我们平时大概只会说这是一个苹果。所以，用语言表达现实世界的过程，是一个 “降维” 的过程。而人们理解语言，透过语言去理解背后的“现实”，是需要 “升维” 操作的，甚至借助隐喻、对照等 “转移” 的手段。这一点在这本书里的哲学篇有较为详细的论述。

而这个降维同样会带来交互上的问题，即解读的难度。

比如“波粒二象性”，并不是说很多人理解的那样光子既是波又是粒子，而是说光子的表现可以用波的特性去刻画，也可以用粒子的特性去刻画。它是在不同的条件下有不同的表现。但因为这个术语的表达，会让不了解这个实验的人们，望文生义成既是波又是粒子，好像变得极为玄学与可怕，但这不过是我们认知系统里观测与表达的局限性。

而要破除这种误解看上去好像并不复杂，因为只需要实实在在地了解实验的过程即可。但是每个人的时间、精力都是有限的，这却又很麻烦。

所以，纯粹基于自然语言的交互显然是效率低下的。这也是为什么人们要想准确表达一件事情，需要经过数十年的语言上的训练。

插句题外话，这种使用语言建模的能力，并不会随着 AI 的“推理能力”变强，而变得无关紧要。AI 的变强，只是为我们提供了一个更高的起点。

四、AI 交互设计的核心理念之一

但同时，我们也会发现，因为代码的可验证性，在 AI 的各项能力里边，代码能力普遍很强。
所以，为什么不发挥好 AI 的代码生成能力，在交互的过程中，临时生成最符合当前情境的交互界面呢？

这不是否认图形界面和命令行的交互价值，而是说，系统可以在需要的时候，自己生产出图形界面或者命令行界面。

几个例子

比如，我们要 AI 推荐一个家庭聚会的菜谱。

它首先不应该是回复大段的 Markdown 文本，而应该是一个精美的可视化、可图形化操作菜单，然后附带购物清单。你可以手动删除一些菜品、新增一些菜品；或者对烹饪用具提出意见，要求采用手头的煎锅而非烤箱制作某些食物；或者直接生成一个临时的“应用”，根据你的聚会人数、过敏信息、口味偏好、时令节气等，设计菜谱、自动采购所有食材、推送通知，在制作的时候在旁边给你分步骤的闹钟提醒（腌制10 分钟，叮，然后煎 2 分钟，叮）等等。

而如果用户要求语音交互，那么它应该是一个更为恰当的顾问，将整个菜谱作为聊天的内容与用户建议而不是朗读整篇 Markdown 文档，这个过程就像你在餐厅跟私人主厨点菜一样，他会给你建议与决策支持，以及记下你的选择为安排人为你下单原材料，并给你呈现最终的大餐安排。

下一步，如果联动了人形机器人，它们会真的给你做好之后，同步给你结果，就像真正的“大管家”那样。

再比如，用 AI 为你创作一篇文章，自然也不应该只给你回复大段的文本，然后你发指令告诉它修改哪一段。它也可以生成一个符合当前的编辑器的交互界面，如果是公文，就给你一个公文的编辑器界面，并且其中的文章符合公文的格式，并提供一些公文写作会专门用到的辅助工具，诸如政策查询、一次性排版、公文风格的封面设计。

如果是小红书帖子，那么字体、格式、生成的图片，自然也都是小红书风格的，界面大小都可以实时预览。

如果你要创作思维导图，也不是只给你 Markdown 格式的大纲，而是一个符合思维导图的操作界面。然后可以随意切换到任意格式，呈现为可交互式的网页、转换为符合论文写作排版要求的格式、或者某个论文杂志的排版要求。不一而足。如果你要做一个市场调研，那么它可以不止是搜索资料、思考整理给你一个 PDF，除了给你呈现一个可交互式的报告，也可以生成该报告的分享和多人协作点评。以及可以切换各种动态化的交互界面。

所以，AI 整合各种交互能力，给你当前最恰当的交互，是更合适的。而以上这些假想案例，在当前的能力下，基于前端代码生成能力和 API 的整合（[23 年对 AI 编程推演的公众号文章链接]比如 MCP 协议、computer_use 接口、诸多前端的库，或者就是直接自己发明轮子等）都是可以实现的了。

以上呈现的还是 AI “被动响应”的模式，我在 16 年，设计过一套当时技术条件下可以实现的助理，在手机上读取用户当前手机界面上的内容，判断意图、抽取实体后，结合用户的行为数据推荐服务，后来以“智慧识屏”的能力在安卓上得以实现。

而随着技术的更迭，现在已经系统性地具备了主动感知、主动推理、主动代理的“主动服务”模式了。

它应当是一种全局化的智能服务，做到真正的跨终端智能。

五、一种手机终端的实现方式--以镜像手机/PC/车机/IoT/机器人等终端的云服务实现端云协同

手机作为一种终端，但会镜像到服务端，这样在云上，即可访问你的所有私人数据。PC、汽车、手表、机器人、IoT 设备等终端是一样的实现。这样一来你重要的 profile 和 preference 会被系统天然感知，鉴权逻辑也自然成立。同时， 基于私人的 profile 和 preference 以及事件触发，AI 将能为你提供真正的个性化服务。

我们还是举几个例子来稍微展开一下想象。

健康场景

系统“健康服务”读取 profile 里的健康数据，发现存在体重突增、工作压力过大久坐与缺乏运动、近期外卖高糖高脂，然后结合历史的基因检测报告，存在糖代谢异常的风险，可能诱发二型糖尿病糖尿病。

告知风险并询问是否需要体检，获得用户许可之后自动在云端依据个人日程挂号，挂号的时候查询当地的对口医院以及科室。

然后创建日程并同步到手机上。And more。

出行场景

系统里的“天气服务”可以主动感知天气的变化，系统结合用户 profile 里的健康数据和 preference 里的穿衣、出行偏好，以及第二天要出差的事件。告诉你明天出发地比如上海会突然降温十度，目的北京地正好跟降温之后的温度一样，请添加一件抓绒衣物保暖即可。可以是手机终端的一种强提醒。

而更靠前一点，如果买完票，接到了值机提醒的事件通知，则读取 profile 里的手机号等信息进行登录鉴权，读取 preference 里的座位偏好，为你值机选座，在云端完成。完毕之后在终端进行告知。

而以上交互的具体过程，都是采用上一节[交互设计的理念]进行具体展开。

A little more

是的，在多模态的 AI 技术、机器人技术等技术的发展背景下，我们的一切产品设计和想象需要重构。

就像这篇文章，我不需要去工具栏找字数统计的按钮，我可以直接问“当前这篇文章多少字”。它甚至不应该是一个字数统计的功能等待被调用，而是在写作过程中作为感知层助于自动构建 context——字数、情感、逻辑等等——AI 时代的应用理当如此，以此在呼叫是响应、主动分析主动响应——多模态感知视觉文本声音。更进一步，这个局部的 context 应该是全局可共享的-这个全局不只是单一硬件——做好隐私管理即可，如此将显著降低用户的认知成本，实现全局的跨模态“连续对话”。

翻译软件也完全不需要 tap and talk，just talk together，也可以是“翻译这段话”“翻译这个路标”“翻译他刚说的那句话，并找一下中文语境的典故”。

为了实现这些交互，就需要对应的设计原则：对话的可视性-含推理过程可见、全局上下文管理和注意力调度、对话关键点中断、置信度可见和边界声明，以及可全局编程生成新的能力和反脆弱设计。“软件”必须吃掉所有的硬件资源。

我们当然也不必通过诸多的 App 去访问背后的服务。Adminbot 和Appbot 或者你叫 Agent 也罢，去自然而然地实现。“模型”可能吃掉所有的场景。

插入一篇[23 年对 Agent 平台的一种实现方式探索] https://m.okjike.com/originalPosts/64df039aaac630c848e699ef

六、重新评估一切价值

“历史不会重复，但会押韵”，前文抛砖引玉，给出了一点回顾与立足于现实的想象，尝试吟诵出其中的一种韵脚。

AI 时代，大家说的所有的场景都值得重做一遍，在这个值得重做里边，因为全新的技术的实现带来的一系列变化，从产品、交互的角度，有必要重新评估哪些关键要素发生了变化，哪些关键环节变得不再必要，有什么样的产品架构、技术架构，来容纳从旧到新的所有产品、技术特长，是一个新的问题。

而这个重新评估和想象，是不分行业、不分领域和场景的。宏观上的必然性与微观的不确定性，在这个时间点上，以不同的尺度交织在了一起。

语言犹如浮空之物，我们凭借它俯瞰迷雾森林，描绘未见的图景。在可表达与不可表达的张力中，扩大我们与世界的交互界面。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业