我要投稿

奇智：生成式 AI 应用创建平台

发布日期：2025-01-24 06:52:03 浏览次数： 1829 作者：爱奇艺技术产品团队

01#

引言

奇智平台是为构建生成式AI原生应用而设计的生成式AI应用创建平台，通过奇智平台，我们可以将复杂的技术任务大幅简化，还能通过可视化编排构建各种类型的应用，让创意和创新更快、更好、更易实现。

我们小时候都玩过积木，通过堆砌各种颜色和形状的积木，可以构建出城堡、飞机、甚至整个城市。现在，如果有一个数字世界的积木，我们就可以用这样的“积木”来构建智能程序，这些程序能够阅读、理解和撰写文本，甚至与我们对话交流。这就是奇智平台要做的，也是奇智已经做到的，它就像是一件庞大的积木套装，等待AI应用的创意者们来发掘和搭建。

02#

奇智平台简介

奇智平台全称是奇智大模型开放平台，奇智平台集成了大量的大模型、以及多种大模型相关的能力，通过奇智平台可快速构建大模型应用，并支持通过API对接接入。通过奇智平台，产研同学可以将多种大模型能力快速、灵活地应用到业务场景中，无需再为繁琐的接入过程耗费大量的研发时间，能够显著提升研发效率。

奇智平台构建在数据中心、调度平台等基础设施之上，为业务提供文本、图片、视频、音频、多模态、Embedding等基础模型能力，还提供LLM和Embedding的一键部署等能力。通过奇智一个平台即可快速接入全球各个大模型，适配不同的应用场景，自由体验、无缝切换，实现业务层和模型层快速灵活的绑定与解耦。

奇智平台为开发者提供了健全的应用模版、编排框架、工具链等，提供从普通AI应用构建，到复杂 AI工作流编排，到多智能体协同等各种使用方式，同时支持RAG检索、模型管理、应用管理、成本管控、API文档自动生成等各类能力，一站式轻松构建和运营生成式 AI 原生应用。业务团队可以基于奇智平台，快速构建大语言模型驱动的生成式AI应用，轻松将创意变为现实，还能随时按AI应用的使用量无缝弹性扩展，有力支撑业务增长。

奇智平台提供了可视化编排生成式AI应用的专业工作站（All in One Place）。涵盖了构建生成式 AI 原生应用所需的核心技术栈，开发者可以聚焦于创造应用的核心价值。

奇智平台提供了一系列的工具更帮助我们更好的构构建AI原生应用。主要包括以下6类工具，后面会对其中一些热门工具做较详细的介绍。

03#

Prompt工程

奇智平台的核心价值之一就是它提供了标准的模型接口，方便我们可以自由的切换不同的模型，包括文本、图片、视频、音频、多模态等模型。

说到模型，大家可以把模型按ChatGPT来理解，单纯的模型只能生成文本内容，随着大模型的不断发展，模型的跨模态能力在不断增强，包括：

1.普通LLM：接收文本字符串作为输入，并返回文本字符串作为输出。

2.聊天模型：将聊天消息列表作为输入，并返回一个聊天消息。

3.视觉模型：将接受的文本和图片或视频作为输入，并返回文本字符串作为输出。

4.语音模型：将接受的语音作为输入，并返回文本字符串作为输出。

奇智平台提供了统一的Prompt工程，支持Prompt的编排、调试、优化、版本管理，方便我们更容易的构建出我们想要的Prompt模板，我们可以保存Prompt模板，重复使用。基于平台，我们可以快速实现Prompt工程的搭建和调优，常见的功能流程如下图。

04#

RAG Pipeline

为了解决纯参数化模型的局限，语言模型可以采取半参数化方法，将非参数化的语料库数据库与参数化模型相结合。这种方法被称为RAG（Retrieval-Augmented Generation）。

1.RAG的整体流程

RAG整体业务链路主要分为5大步骤：知识生产与加工、Query改写、数据召回、后置处理以及大模型生产。

奇智平台在Native RAG的基础上，结合Advanced RAG和RAG-Fusion等方案提供了多种通用RAG能力：

知识切片：按固定字符切分、冗余切分、按句子语义切分、正则切分等。

查询生成/改写：使用 LLM 模型对用户的初始查询，进行改写生成多个查询。

向量搜索：对每个生成的查询进行基于向量的搜索，形成多路搜索召回。

倒数排序融合：应用倒数排名融合算法，根据文档在多个查询中的相关性重新排列文档。

重排: 使用一些重排算法对结果进行重排。

输出生成：参考重新排列后的topK搜索结果，生成最终输出。

2.RAG平台化方案

为方便用户使用，奇智平台提供了可视化的RAG Pipeline构建，方便快速搭建RAG应用，下面是奇智RAG的架构图。

RAG平台提供了知识库管理、RAG应用编排与调试，支持一键部署各类开源的热门Embedding模型，支持Rerank重排、多版本管理、数据与标注等。

同时供了一系列的功能模块和API服务，包括分块服务、Embedding、向量服务、知识库服务等，对有深入定制化需求的业务，可通过API灵活组合构建更定制化的RAG应用。

在平台上可以通过可视化编排的方式，快速搭建一个RAG应用，然后通过调用应用API的方式将应用集成在工程项目中：

05#

工作流

通过将复杂的任务分解成较小的步骤（节点），工作流可以降低系统复杂度，减少对提示词技术和模型推理能力的依赖，提高 LLM 应用面向复杂任务的可解释性、稳定性和容错性。

1.奇智工作流介绍

奇智工作流分为两种类型：

对话工作流：面向对话类情景，需要在构建响应时进行多步逻辑的对话式应用程序。
文本工作流：面向自动化和批处理情景，适合高质量翻译、数据分析、内容生成等应用程序。

奇智工作流由用户界面和工作流执行服务两部分构成，如下图：

用户界面将工作流执行服务的各类执行器以节点的形式暴露出来，包括LLM、知识检索、问题分类、代码、HTTP、插件、条件等节点：

LLM节点：调用大语言模型回答问题或者对自然语言进行处理；

知识检索：从知识库中检索与用户问题相关的文本内容，可作为下游 LLM 节点的上下文；

问题分类：通过定义分类描述，LLM 能够根据用户输入选择与之相匹配的分类；

代码：运行 Python / Groovy 代码以在工作流程中执行数据转换等自定义逻辑；

HTTP：允许通过 HTTP 协议发送服务器请求，获取更多业务需要的信息；

插件：允许在工作流内调用奇智平台上自定义创建的各种插件；

各业务可对各类节点进行可视化的拖拽和编排，构建各类工作流应用。

2.工作流为业务带来了以下的便利

复杂任务的模块化管理：通过将复杂任务分解成多个节点，使任务处理流程清晰，每个节点承担单一职责。这种模块化设计降低了复杂任务的系统复杂度，增强了流程的可维护性和可扩展性。

实现业务逻辑的灵活调整与扩展：工作流支持条件判断和多分支并行执行等，使业务逻辑可以灵活编排和调整，适应不断变化的业务需求。同时，工作流结构便于新增或替换节点，极大增强了系统的适应性和灵活性。

增强系统的可解释性与容错性：工作流使任务处理路径可视化，便于监控和追踪各节点执行结果，提升了系统的可解释性。此外，工作流能够通过条件分支有效应对异常情况，增强系统的容错能力。

下面是一个运维机器人工作流示例：

运维机器人通过问答的形式，帮助业务提高问题的排查问题和定位速度。在该工作流中，通过问题分类节点对问题进行分类，并通过选择器节点将不同类型的问题流转到不同的分支处理，最终通过结束节点引用各个分支的结果，进行综合结果的输出。各环节的配置说明如下：

环节	节点类型	说明
开始	开始节点	开始节点用于接收用户问题，将用户输入赋值给变量，透传给后续的节点。
识别用户意图	问题分类节点	在节点中填写分类信息。该节点会对用户的问题进行分类，并根据分类将问题转交给不同的分支进行处理。如：监控类的问题则转交给监控的分支处理。
处理用户问题	知识库节点、大模型节点	知识库节点根据用户问题进行知识召回；大模型节点进行总结回复。
结束	结束节点	输出智能体的回复内容。可以通过输出变量直接引用前置节点的数据，进行回复内容的输出。

06#

插件

插件是大模型能力的拓展，通常通过调用外部API的方式来进行大模型的能力拓展，例如OpenAI调用插件的流程如下图：

奇智平台在参考OpenAI的插件流程和插件描述规范的基础上，设计实现了一套自定义插件的开发流程，并基于Function call、ReAct等能力进行插件的识别和调用，从用户输入中提取插件所需的参数，进行插件API的调用，然后再通过大模型进行插件API回复结果的总结。下图展示了基于Function call的插件流程：

对于用户来说，在奇智平台创建自定义插件的流程较为简单。用户在编写好插件的API描述ibrain.yaml文件后，上传到奇智平台，验证通过后，则可创建插件。创建完成后就能在各个应用中使用以拓展大模型的能力。插件创建的流程如下图：

07#

Agent

奇智支持通过基础模板和自由创建的方式来创建智能体。

根据复旦大学自然语言处理团队（FudanNLP）LLM-based Agents 综述论文<<The Rise and Potential of Large Language Model Based Agents: A Survey>>，提到了“Agent = LLM + 感知 + 规划 + 记忆 +工具使用”的基础架构，其中大模型LLM扮演了Agent的“大脑”，在这个系统中了提供推理、规划等能力。整体架构如下图所示：

（图片引用地址）

Agent这个框架包含多个部分，分别是感知（Perception）、规划（Planning）、记忆（Memory）、动作（Action）等，分别简单介绍下：

感知（Perception）: 从外部环境接收处理多模态信息。
规划（Planning）：主要包括子目标分解、反思与改进。
记忆（Memory）：包括短期记忆和长期记忆。
动作（Action）：使用文字或者工具（调用外部API来获取模型权重中缺少的额外信息，包括当前信息，代码执行能力，访问专有信息源等。）来完成执行的操作，从而对外部的环境造成影响。

目前奇智平台已支持文字形式的输入输出，通过大模型调用各类工具等功能。

奇智平台在单个Agent应用的基础上，支持用户构建Multi-Agent应用。平台支持将用户自建Agent和在奇智平台创建的Agent，接入同一个Agent Group中解决同一问题。平台还提供控制调控Agents之间通信合作的功能，以及保存和载入短期历史Group信息的功能。在同一个Group的Agents可以共享信息，互相传递消息，不断迭代，最终解决问题。每个Group实例之间的历史信息互相隔离，提供独立的工作环境，Group中的代理Agent是原有Agent在新的环境/Group的代理，负责在Group中和原Agent之间的消息传递。

同时我们还可以在对使用的Agent功能了解的情况下，通过规定Agent之间的工作顺序来有效集成Agent功能完成任务。如下图所示，在奇智创建Group时可以使用以下参数设置用字典构建一个工作顺序图：

我们有Planner， Engineer， Executor，Critic这几个Agents, Planner可以做计划， Engineer可以写代码，Executor可以执行代码， Critic可以提出意见。

希望的工作顺序是Planner先做计划，由Engineer来发出指令，然后可以是Executor来执行或者Critic提出意见，Critic可以将结果返回给Planner或者让Engineer重新计算，Executor可以将执行结果提交给Engineer， Planner可以选择需不需要重新制定计划。

下面的参数设置中key，values分别代表运行顺序箭头的两端。

 "relationship_graph": {
"planner": ["engineer"],
"engineer": ["executor", "critic"],
"critic": ["engineer", planner],
"executor": ["engineer"]
 }

Multi-Agent不仅是提供了Agents之间合作的平台，也是提供了Agents之间互动的平台，也就是说Agents之间也可以互相反驳，互相竞争。

奇智平台即将上线给大模型配备的记忆功能，在记忆功能的基础上我们将进一步增加反思、总结等高层次的能力，让智能体在互动中学习总结，帮助智能体在模型训练数据见底的情况下持续学习增长能力。在Agent的记忆功能启用的情况下，这种互动将有助于单个Agent自身的能力提升。和Agent相关的相关规划还包括Agent多模态存储、提取、处理以及提高Agent 工具调用能力等。

08#

Memory（即将上线）