AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI技术前瞻:下一个AI风口在何处?
发布日期:2024-06-24 12:44:42 浏览次数: 1589




在过去一年里,AI话题热度持续升温,在大模型百家争鸣的今天,涌现出分门别类的人工智能体,谁会是下一个风口?本文从“ Web Agent 自动化解决方案”和“北大Open Sora生成能力增强”为各位带来AI技术前瞻。

分享嘉宾|宁鲲鹏 元空AI技术联合创始人

内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。


01

Web Agent自动化解决方案

我们希望让 AI 成为真正的生产力,利用 Agent 帮我们干活,幻想中最完美的画面,就是流程中有 Master Agent,发起任意需求,他会去帮你生成一系列工作流。比如投后诊断、小红书达人分析、电商精品分析,自动生成工作流,在云主机上进行实时执行,帮助相应工作的完成,同时将结果、分析结论、数据报表,实时同步,让使用者感受到自己真正拥有了 AI agent 团队。
落实到实际营销场景中,我们完成了从品牌的用户洞察、舆情监控、内容制作、达人营销、账号矩阵自动化运营、智能客服等一整套全链路AI产品场景矩阵。


从技术层面来看,具体会涉及到LAM,该概念最早在 Rabbit 中提到。通过描述任务,比如:分析精致贵妇的生活KOL,LAM具备两个功能。
1、自我规划能力
2、自我反省能力。
针对任务,做相应的思考与规划。去小红书蒲公英上搜索相应的关键词,找到相应博主,分析对应的帖子内容与文案,最后产生report,以邮件的方式反馈。
一步步的流程形成工作流,只要描述内容,让多模态大模型生成工作流,后面只需要安排他干活就行了,发布指令就能完成系列工作。
举一个简单版的学术上的例子,我想在学术网页上查找学者的引用量,首先发起任务,“帮我查找 Hinton 的引用量是多少”。Agent会自动思考,模拟人的行为把学者名字输入到搜索框里,完成相应的点击操作。这个模式跟自动驾驶类似,人可以从中间介入,他会综合思考两个东西,人类给的提示与 Agent 自己的思考,得出结论。最终会形成对应的工作流沉淀下来,相当于已经训练好了一个员工,后续只需执行,他就会按照操作帮你完成接下来的工作。
具体包含两个内容
1、通过 task 驱动,只需要描述task,它可以自动完成且形成工作流,下一次也可以接着用。
2、用户可随时介入,觉得回答不准或不达意,可实时沟通调整,修改相应的工作流。
技术细节方面,我们发现 AI 能完全理解你的需求,也知道该如何执行。难点在于对于常人来说是一个非常简单的问题,直接把需求输入到搜索框里面就可以了,但 AI 怎么转换成对应的指令且准确地输入,这是比较困难的。
第一,首先有一个大屏幕做全局扫描,可理解成分割,把网页的 HTML 代码对应的叶子节点拿出来,搜索框、logo、图片都是叶子节点, html 是树形结构,我们只需要最下面一批就足够。
第二,图像分割之后我们可以知道所有的东西。
第三,剩下事情就变成了召回和 ranking 的过程,任务跟什么相关,只需要进行排序,再去输入指令就够了。

02

北大Open Sora生成能力增强

目前非常火的项目视频生成( open Sora )。Open AI很早发布了Sora,虽然没有对外开放,但效果非常炸裂惊艳。我们团队希望用开源的力量复现出Sora,成为视觉版LLaMA。因为算力有限,希望以开源的方式让更多的算力进来,让Sora能力越来越强,这是团队的初衷。


具体的实现方式包含三个部分。
1、压缩和解压过程。2、 Diffusion 。3、Condition 线路。
现在的 AI 技术,包括 GPT、视频生成、文生图。技术都是大道至简的感觉,对技术方案上较为统一。拼的更多是数据上的沉淀,细节训练、修改。

比较标准的方案具体有三部分,第一部分是视频的压缩和解压,形象点来说在电脑上把所有视频压缩成zip 包,然后再进行解压。中间部分可以理解成 zip 包,只不过由编码方式来进编码,VAE是经典的模型,把原始视频输进去,能达到一分钟 720P 的重建Demo,压缩率目前可达到 256 倍,个人也认为,只要把信息压缩得足够多,生成效果会越好。这并不是用文本生成视频,这是重构,意味着把原视频输进去,通过压缩再解压,是否能还原。

DiT 在图文生图领域很常见,包括 Midjourney 与其他的文生图都是通过这种该方法,Diffusion也是做视频生成的常用方案。它具体如上图所示,框架内训练了一个压缩器和解压器,可以理解成就把视频打包成zip,可将他看做向量,然后这个向量里面我们会给它不断地加随机噪声,直到变成完全随机噪声,这是整体输入的过程。Diffusion 可起到去噪的效果,能够还原之前的视频,同时把 Condition 加进去,按照这些条件进行生成,都是一样的道理。
Condition 包括草图、深度、关键点,只按照规定的几个关键点去做相应的生成,但文本还是目前主流方式。
最后提出一个问题供大家思考讨论:文生视频这个事情离商业化比较遥远,大家会不会愿意为一个“闲聊”的玩具买单?

以上就是本次分享如需获取专家完整版视频实录和课件可扫码领取。

长按二维码,领取完整版视频实录和课件

北京大学计算机学院博士。ChatExcel 发起人,登上知乎、36Kr等多个媒体热搜,曝光量达5000w+,使用人数500w+,日活最高突破15w+曾就职于京东搜索广告产品研发,在腾讯AI Lab&ARC lab、华为拍照工程部进行学术上的基础研究。在CRPR、AAAI、IJCAI、KDD等国际顶级会议上发表论文4篇。

注:点击左下角“阅读原文”,领取专家完整版实录和分享课件

53AI,大模型落地应用首选服务商

定位:开箱即用的大模型落地应用平台

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

年轻人!来一起搞AI吗?

如果你看见AI对商业世界的变革,欢迎来和我们一起探索~

岗位:销售经理

查看详情

岗位:项目经理

查看详情

岗位:产品经理

查看详情

岗位:测试工程师

查看详情

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询