我要投稿

AI+Office ，2024 Q1

发布日期：2024-05-28 03:14:35 浏览次数： 1924 作者：下维NextDimension

@付子豪（Sio FU）
AI+Office产品经理，不断探索底层模型能力，专注应用层创造产品

此时此刻的GenAI到底给Office带来了什么？
是原有能力查缺补漏式的增强？是与真正需求Match的效率提升？
还是一个经历了无数次测试的所谓“新智生产力”？

办公软件基数大，受众广的特性将其推向GenAI时代的风口浪尖，期待着这样一个入口能够带着更多用户走进GenAI的时代。又过了一个季度，带着不断起伏的FOMO情绪回看第一个季度AI+Office的领域进展。
不禁冒出来三个问题：

模型商，中间层，办公软件厂商借助RAG技术主攻的知识库场景，核心壁垒是什么？
被吴恩达教授再次提及的Workflow其重要性是什么？
在LLM应用边际成本依旧很高，AI商业化被快速拿到桌面之上，用户/客户为什么付费？

当红炸子鸡---RAG

绝大部分知识都静悄悄的躺在文档中，找得到是知识，找不到就是不可撼动的存储成本

为了解决模型幻觉的问题RAG技术被再次拿到GenAI的时代大放异彩，从去年下半年到今年两会之后市场需求呈指数级上升。无论是模型厂商，中间层创业公司，还是办公软件厂商都快速地投身到以RAG为核心的知识库场景中。讲到这里就不得不佩服微软的Copilot战略设计，在去年三月份第一场发布会就发布了Business Chat这款产品，本质上就是企业知识库问答，进而辅助决策。通过Top-Down的形式进行推广，打动的就是Boss。

<详细文档见：深度拆解Microsoft Copilot v202303>

知识库的场景价值不言而喻，企业经营沉淀的知识一部分是在操盘者的脑子里，而另一大部分则静悄悄的躺在成百上千的企业文档中。然而没有一家公司在建立之初就有严格的文档命名制度并沿用至今，找文档始终是件让人头疼的事儿，想在大量的文档中找到某一个片段内容更是天方夜谭。然而RAG的出现，让找文档找片段这件事儿成为了可能，那么基于素材的再创作也就顺理成章。RAG也从一开始的重心在解决Generation的问题，渐渐转向专攻Retrieval。

以RAG为核心的内容系统

设想一下我们在没有AI辅助的时候内容创作或者回复消息第一步是什么？

仔细回想，应该就是信息检索（要么来自于我们的大脑，要么来自于搜索引擎，要么来自于模板或者自己的知识库...)，找到了之后开始进行思考接着把思考的内容呈现出来进入到下一个环节。而RAG要做的也就是这两部分：检索，加工。

检索：数据异质性的处理
在数据被利用起来之前必不可少的一个步骤就是ETL，而对于RAG来说仅是数据清洗仍然不够，识别清洗之后怎样让其转译为LLM能够理解的数据十分重要。因此数据异质性的处理就成为了检索能力的核心，传统的四种标准格式中表格和PDF是巨大的考验。对于LLM这样的连续token文本模型，是否能够理解二维表格的结构以及其背后所暗含的因果关系，目前还没有清晰的结论，但肉眼可见的是大宽表一定不行。论文中也给出了很多表格数据的描述方法来提高理解准确率，但是我认为还是得加入视觉能力辅助进行数据读取和表结构理解。PDF作为一种标准的传输格式保证了文件内容和样式的一致性，你会发现几乎所有的组件都能够导出为PDF，这也意味着PDF中包含的元素十分丰富。因此它也往往成为了“定稿格式”或者“流通格式”，这也是为什么模型厂商的Chat页面上传的PDF格式文件居多的主要原因。

<包含了多种数据内容的PDF文件>

对于PDF的解析至关重要，这里的解析不仅仅是内容的解析，更包含了其中非结构化内容中数据意义的解析。例如PPT导出的PDF，为了保证数据的易读性，已经用各种分析图替代到了很多冗余的文字，此时LLM如何理解这些数字直接关系到是否能检索出来相关内容？目前看到业界的做法是借助了LLM读图的能力进行SFT，从而辅助进行内容识别。

数据异质性处理在数据准备环节以及整个以RAG为核心的内容系统下都有着“地基”般的作用，在这一环的技术积累我认为未来能够成为壁垒。

除了通用文档的数据处理，特定场景下（泛问答场景）的数据收集和处理也有一定的Tricky：

对核心问题以及常问问题进行缓存，通过语义匹配大大提高了检索效率和准确率
支持拼写错误的辅助纠正，特定环境的黑话，以及专业术语的同义词，这些传统搜索能力的巧思也能够进一步提高检索的准确率

当然检索的目的就是要找到和这个问题最相关的内容，Embedding和Rerank的算法迭代升级也依然具有较大的空间。因此无论是传统办公软件厂商，中间件公司，模型公司在这个部分都具有各自的优势。

生成：个性化的呈现相关内容
生成过程有一个基本原则<低幻觉，高相关性，个性化格式>，前两个和检索强相关，那么第三个就是和生成的Prompt十分相关了，生成内容的呈现格式，生成内容的语言语气等。

其本质上是把找到的东西以一种更加用户友好的方式呈现出来。那么什么才是用户友好的方式？这往往是下游任务决定的。根据不同的任务方向我认为会有三种用户需求：a、需要结合素材内容进行二次创作，RAG的结果是他的素材，那么就需要有编辑器能够承接，此时就需要LLM根据检索到的内容创作出符合用户使用场景的段落内容；b、查询到的内容作为精准的信息进行发送，其对应的场景就包括销售、客服、帮助中心等，此时对信息的质量要求就会变高；c、用户就是希望找到相关的文件，这本质上是解决了过去文档中心搜索能力较差的问题，检索的准确率至关重要，把相关文件的全部信息展示出来就满足了用户需求。

就我的观察，找得到仍然是今天最核心的需求，至于生成出来的内容有多惊艳，那就是锦上添花之作。

RAG的当红也和这项技术的生态位有关，有内容的可能因为RAG去做下游，有编辑器的期待用RAG串联起来内容，有模型的期待把RAG这一层做精，无论是输入还是输出带来的都是数据。这么来看，三种厂商都有机会用一个单点式的突破抓住客户。

对于C端用户来讲，RAG的大前提是海量的精品内容，保证输出草稿的质量。

对于B端客户来讲，RAG的Content可不只是文档。得让用户用得放心，是权限上的放心，也是内容准确度上的放心，是信息完整性的放心（人，事，物）。

被Dr.Ng多次提到的Workflow

如果说RAG获取到的是那些看得见的知识，那Workflow捕捉的就是看不见的知识。

当我们面对一个复杂的任务时，最直觉的选择就是拆解。把线程拉长，思考的空间也被无形中放大。思考，合作和模拟验证成为了完成复杂任务的关键。回到今天的大语言模型，业务中的任务对于Reasoning的能力考验仍然是巨大的。无论是CoT，ToT，ReAct等多种Planning的方法，都是希望能够通过Prompt引导LLM思考足够长的时间，似乎推理时间更长便有了深思熟虑的影子。为了其准确率的提升，设计Reflection机制，在流程中三省吾身，快速自我修正；甚至是多Agent设计，集思广益般的交叉验证。

那么流程过程中除了SOP的步骤，对于企业来说还包含了什么？如果说RAG的目标是利用起来Officer留下的各种内容，那Workflow就包含了各种看不见的Expert的Know-how。今天来看企业的专家知识绝非单点的内容，而是流程体系过程中沉淀下的经验，它藏在每一种可能的情况背后，藏在流程的每一个节点中。在过去，只有在专家在的时刻，这部分问题才能解决。今天Workflow的建设就是希望将这些无形的知识能沉淀在这个Flow中，通过知识共享和流程自动化的有机结合来提高整体的生产力。

从企业主的角度来看，这一定是件有价值的事儿，『专家知识的具象化』，这在过去想都不敢想的事儿今天有可能成为现实。然而这个过程是逆人性的，真正的tricky通过什么样的机制驱动下完全贡献出来？可能仍需在机制这层进一步思考。

另一方面，今天来看Workflow编排的学习成本还是过高，虽然通过节点连接的界面化展示，把原有过程按照数据流向的方式呈现给了编排者。但是就目前来看，企业专家的Workflow编排仍然需要一个“翻译”人员，通过专家的Prompt进行转译。无形之中又增加了核心know-how完整呈现出来的阻力。

那么这么来看，Workflow的重要性归根结底就是能让AI真正在业务场景下Work起来。这其中包含了业务标准流程，专家的Know-how，以及经验沉淀的Tricky。如果实现，不经意间就把企业客户的沉没成本又提高了一个档。

为什么要给AI付费？

稳定的付费只能来自于“定制化”，我只会给属于我的东西买单。

GenAI软件和传统软件相比，除了相应的不确定性较高，边际成本也不可忽视。毕竟每一次访问，无论是否解决了用户的问题，成本都已经产生了。为了提高端到端的准确率，其背后的Prompt设计，Agent设计，还是更换更加先进的模型，都是进一步拉高了单次访问成本。和传统软件相比，都是指数级成本的上升。因此AI的商业化也被快速得拿到牌桌上，那么用户为什么要为AI付费呢？

我认为中间件平台未来的竞争优势中动态的成本-准确率-时延的Router将会有非常重要的地位，当下经济环境状态下依然是企业决策仍然是成本敏感。

雪中送炭，江湖救急

频率：较低场景重要性：中低输出质量要求：中等速度要求：快速

“还有5个小时就要提交汇报材料了，此时刚刚创建好PPT文件。”如果是在过去，开始搜索模板，眼花缭乱的模板似乎都和我的主题不是很匹配，找到模板还要绞尽脑汁编写内容。终于把所有的内容填完了，来不及过一遍发现已经Delay10分钟了。

“跨领域方向的材料准备。一个做销售的宝爸要给小学生的班级分享GenAI。”如果是在过去，大量的信息检索，设计一下整个材料的结构，同时还得想办法翻译成小朋友能理解的语言，每天下班都要钻研几个小时。

今天的AI第一步就是解决这些问题，基于模板库或知识库快速生成一份可用的草稿，用户仅需要在草稿上进行增删改，即可快速完成所需材料的准备工作。用户愿意为这个高效付费，内容+AI+目标格式的结果三者的融合促成了引导用户付费的动力。我认为这里面未来最大的付费点是内容，保证整体质量的基石就是内容。而内容则包含两部分内容，模板格式+多种数据源的素材。

用户只会为定制化智能持续的付费

频率：中高场景重要性：较高输出质量要求：较高速度要求：中等

随着AI的智能化能力提升，定制化的门槛也在逐渐降低。从C端用户的角度来看，通过Prompt的描述，coze，Dify这样的中间件平台，都能够搭建一个属于个人的智能Bot。从B端客户的角度来看，RAG带来了数据，组织，事务组成的内容定制化，Workflow融入了专家知识，经验技巧，标准流程等运转流程的定制化。用户/客户需要的是高质量且高效的解决我特定场景问题的能力，而非是学习成本较高的，目标并不聚焦的通用性能力。

Long Context Window某种程度上就是一种Chatbot窗口最低门槛的定制化方式，我只要是和单一Bot持续的对话，超长序列的Memory和模型RLHF技术都将会强化这个单元Bot和使用者的连接，也即产生了“懂我”的感觉。

在Office场景下，用户在工作中的输出一定是具有连续性的，只是因为数据的展示形式不同，选择了不同的容器，但是从内容的角度必定是连续的和上下文相关的。此时的AI是否具有全局的记忆？以及基于全局内容进行输出，将成为重要的付费诱因。这也是AI tool和Copilot最大的区别。

AI Insights From Sio

?红杉Arc课程的PMF框架
?AI+Office，这一年。
?万字长文！何谓MoE，为何MoE？
✏Notion AI视角下的 Humans in the Loop
?AI应用层P和M到底怎样F？
?万字长文！何谓Agent，为何Agent？

Reference：
[1].https://arxiv.org/pdf/2403.12031

※Mistakes&Opinions my own, and not of my employer.※

欢迎评论，讨论，请点击“在看”和“赞”，戳我试试吧