在过去一年里,AI话题热度持续升温,在大模型百家争鸣的今天,涌现出分门别类的人工智能体,谁会是下一个风口?本文从“ Web Agent 自动化解决方案”和“北大Open Sora生成能力增强”为各位带来AI技术前瞻。分享嘉宾|宁鲲鹏 元空AI技术联合创始人
Web Agent自动化解决方案
我们希望让 AI 成为真正的生产力,利用 Agent 帮我们干活,幻想中最完美的画面,就是流程中有 Master Agent,发起任意需求,他会去帮你生成一系列工作流。比如投后诊断、小红书达人分析、电商精品分析,自动生成工作流,在云主机上进行实时执行,帮助相应工作的完成,同时将结果、分析结论、数据报表,实时同步,让使用者感受到自己真正拥有了 AI agent 团队。落实到实际营销场景中,我们完成了从品牌的用户洞察、舆情监控、内容制作、达人营销、账号矩阵自动化运营、智能客服等一整套全链路AI产品场景矩阵。
从技术层面来看,具体会涉及到LAM,该概念最早在 Rabbit 中提到。通过描述任务,比如:分析精致贵妇的生活KOL,LAM具备两个功能。针对任务,做相应的思考与规划。去小红书蒲公英上搜索相应的关键词,找到相应博主,分析对应的帖子内容与文案,最后产生report,以邮件的方式反馈。一步步的流程形成工作流,只要描述内容,让多模态大模型生成工作流,后面只需要安排他干活就行了,发布指令就能完成系列工作。举一个简单版的学术上的例子,我想在学术网页上查找学者的引用量,首先发起任务,“帮我查找 Hinton 的引用量是多少”。Agent会自动思考,模拟人的行为把学者名字输入到搜索框里,完成相应的点击操作。这个模式跟自动驾驶类似,人可以从中间介入,他会综合思考两个东西,人类给的提示与 Agent 自己的思考,得出结论。最终会形成对应的工作流沉淀下来,相当于已经训练好了一个员工,后续只需执行,他就会按照操作帮你完成接下来的工作。1、通过 task 驱动,只需要描述task,它可以自动完成且形成工作流,下一次也可以接着用。2、用户可随时介入,觉得回答不准或不达意,可实时沟通调整,修改相应的工作流。技术细节方面,我们发现 AI 能完全理解你的需求,也知道该如何执行。难点在于对于常人来说是一个非常简单的问题,直接把需求输入到搜索框里面就可以了,但 AI 怎么转换成对应的指令且准确地输入,这是比较困难的。第一,首先有一个大屏幕做全局扫描,可理解成分割,把网页的 HTML 代码对应的叶子节点拿出来,搜索框、logo、图片都是叶子节点, html 是树形结构,我们只需要最下面一批就足够。第三,剩下事情就变成了召回和 ranking 的过程,任务跟什么相关,只需要进行排序,再去输入指令就够了。02
北大Open Sora生成能力增强
目前非常火的项目视频生成( open Sora )。Open AI很早发布了Sora,虽然没有对外开放,但效果非常炸裂惊艳。我们团队希望用开源的力量复现出Sora,成为视觉版LLaMA。因为算力有限,希望以开源的方式让更多的算力进来,让Sora能力越来越强,这是团队的初衷。
1、压缩和解压过程。2、 Diffusion 。3、Condition 线路。现在的 AI 技术,包括 GPT、视频生成、文生图。技术都是大道至简的感觉,对技术方案上较为统一。拼的更多是数据上的沉淀,细节训练、修改。比较标准的方案具体有三部分,第一部分是视频的压缩和解压,形象点来说在电脑上把所有视频压缩成zip 包,然后再进行解压。中间部分可以理解成 zip 包,只不过由编码方式来进编码,VAE是经典的模型,把原始视频输进去,能达到一分钟 720P 的重建Demo,压缩率目前可达到 256 倍,个人也认为,只要把信息压缩得足够多,生成效果会越好。这并不是用文本生成视频,这是重构,意味着把原视频输进去,通过压缩再解压,是否能还原。
DiT 在图文生图领域很常见,包括 Midjourney 与其他的文生图都是通过这种该方法,Diffusion也是做视频生成的常用方案。它具体如上图所示,框架内训练了一个压缩器和解压器,可以理解成就把视频打包成zip,可将他看做向量,然后这个向量里面我们会给它不断地加随机噪声,直到变成完全随机噪声,这是整体输入的过程。Diffusion 可起到去噪的效果,能够还原之前的视频,同时把 Condition 加进去,按照这些条件进行生成,都是一样的道理。Condition 包括草图、深度、关键点,只按照规定的几个关键点去做相应的生成,但文本还是目前主流方式。最后提出一个问题供大家思考讨论:文生视频这个事情离商业化比较遥远,大家会不会愿意为一个“闲聊”的玩具买单?