AI技术前瞻：下一个AI风口在何处？

发布日期：2024-06-24 12:44:42 浏览次数： 1589

在过去一年里，AI话题热度持续升温，在大模型百家争鸣的今天，涌现出分门别类的人工智能体，谁会是下一个风口？本文从“ Web Agent 自动化解决方案”和“北大Open Sora生成能力增强”为各位带来AI技术前瞻。

分享嘉宾｜宁鲲鹏元空AI技术联合创始人

内容已做精简，如需获取专家完整版视频实录和课件，请扫码领取。

Web Agent自动化解决方案

我们希望让 AI 成为真正的生产力，利用 Agent 帮我们干活，幻想中最完美的画面，就是流程中有 Master Agent，发起任意需求，他会去帮你生成一系列工作流。比如投后诊断、小红书达人分析、电商精品分析，自动生成工作流，在云主机上进行实时执行，帮助相应工作的完成，同时将结果、分析结论、数据报表，实时同步，让使用者感受到自己真正拥有了 AI agent 团队。

落实到实际营销场景中，我们完成了从品牌的用户洞察、舆情监控、内容制作、达人营销、账号矩阵自动化运营、智能客服等一整套全链路AI产品场景矩阵。

从技术层面来看，具体会涉及到LAM，该概念最早在 Rabbit 中提到。通过描述任务，比如：分析精致贵妇的生活KOL，LAM具备两个功能。

1、自我规划能力

2、自我反省能力。

针对任务，做相应的思考与规划。去小红书蒲公英上搜索相应的关键词，找到相应博主，分析对应的帖子内容与文案，最后产生report，以邮件的方式反馈。

一步步的流程形成工作流，只要描述内容，让多模态大模型生成工作流，后面只需要安排他干活就行了，发布指令就能完成系列工作。

举一个简单版的学术上的例子，我想在学术网页上查找学者的引用量，首先发起任务，“帮我查找 Hinton 的引用量是多少”。Agent会自动思考，模拟人的行为把学者名字输入到搜索框里，完成相应的点击操作。这个模式跟自动驾驶类似，人可以从中间介入，他会综合思考两个东西，人类给的提示与 Agent 自己的思考，得出结论。最终会形成对应的工作流沉淀下来，相当于已经训练好了一个员工，后续只需执行，他就会按照操作帮你完成接下来的工作。

具体包含两个内容

1、通过 task 驱动，只需要描述task，它可以自动完成且形成工作流，下一次也可以接着用。

2、用户可随时介入，觉得回答不准或不达意，可实时沟通调整，修改相应的工作流。

技术细节方面，我们发现 AI 能完全理解你的需求，也知道该如何执行。难点在于对于常人来说是一个非常简单的问题，直接把需求输入到搜索框里面就可以了，但 AI 怎么转换成对应的指令且准确地输入，这是比较困难的。

第一，首先有一个大屏幕做全局扫描，可理解成分割，把网页的 HTML 代码对应的叶子节点拿出来，搜索框、logo、图片都是叶子节点， html 是树形结构，我们只需要最下面一批就足够。

第二，图像分割之后我们可以知道所有的东西。

第三，剩下事情就变成了召回和 ranking 的过程，任务跟什么相关，只需要进行排序，再去输入指令就够了。

北大Open Sora生成能力增强

目前非常火的项目视频生成（ open Sora ）。Open AI很早发布了Sora，虽然没有对外开放，但效果非常炸裂惊艳。我们团队希望用开源的力量复现出Sora，成为视觉版LLaMA。因为算力有限，希望以开源的方式让更多的算力进来，让Sora能力越来越强，这是团队的初衷。

具体的实现方式包含三个部分。

1、压缩和解压过程。2、 Diffusion 。3、Condition 线路。

现在的 AI 技术，包括 GPT、视频生成、文生图。技术都是大道至简的感觉，对技术方案上较为统一。拼的更多是数据上的沉淀，细节训练、修改。

比较标准的方案具体有三部分，第一部分是视频的压缩和解压，形象点来说在电脑上把所有视频压缩成zip 包，然后再进行解压。中间部分可以理解成 zip 包，只不过由编码方式来进编码，VAE是经典的模型，把原始视频输进去，能达到一分钟 720P 的重建Demo，压缩率目前可达到 256 倍，个人也认为，只要把信息压缩得足够多，生成效果会越好。这并不是用文本生成视频，这是重构，意味着把原视频输进去，通过压缩再解压，是否能还原。

DiT 在图文生图领域很常见，包括 Midjourney 与其他的文生图都是通过这种该方法，Diffusion也是做视频生成的常用方案。它具体如上图所示，框架内训练了一个压缩器和解压器，可以理解成就把视频打包成zip，可将他看做向量，然后这个向量里面我们会给它不断地加随机噪声，直到变成完全随机噪声，这是整体输入的过程。Diffusion 可起到去噪的效果，能够还原之前的视频，同时把 Condition 加进去，按照这些条件进行生成，都是一样的道理。

Condition 包括草图、深度、关键点，只按照规定的几个关键点去做相应的生成，但文本还是目前主流方式。

最后提出一个问题供大家思考讨论：文生视频这个事情离商业化比较遥远，大家会不会愿意为一个“闲聊”的玩具买单？

以上就是本次分享，如需获取专家完整版视频实录和课件可扫码领取。

⩓

长按二维码，领取完整版视频实录和课件

北京大学计算机学院博士。ChatExcel 发起人，登上知乎、36Kr等多个媒体热搜，曝光量达5000w+，使用人数500w+，日活最高突破15w+曾就职于京东搜索广告产品研发，在腾讯AI Lab&ARC lab、华为拍照工程部进行学术上的基础研究。在CRPR、AAAI、IJCAI、KDD等国际顶级会议上发表论文4篇。

注：点击左下角“阅读原文”，领取专家完整版实录和分享课件。

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

大家都在问

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

2024-06-29

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

2024-06-29

AI结合游戏NPC会发生什么？

2024-06-29

再见了，百度文库！没想到打败你的竟然是秘塔AI文库？

2024-06-29

如何使用Anthropic最强AI模型Claude 3.5 Sonnet？

2024-06-29

AI Agent：企业和我们普通人能做什么？

2024-06-28

开源大模型巅峰对决！谷歌Gemma2被国产开源大模型秒了？

2024-06-28

Multi-Agent ，知多少？

2024-06-28

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

大家都在问

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

AI结合游戏NPC会发生什么？

再见了，百度文库！没想到打败你的竟然是秘塔AI文库？

如何使用Anthropic最强AI模型Claude 3.5 Sonnet？

AI Agent：企业和我们普通人能做什么？

开源大模型巅峰对决！谷歌Gemma2被国产开源大模型秒了？

Multi-Agent ，知多少？

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

大家都在问

ChatGPT Mac 版应用向所有用户免费开放，如何下载使用？

如何花3400配置一台室内无噪音，48GB显存的深度学习服务器？

AI结合游戏NPC会发生什么？

再见了，百度文库！没想到打败你的竟然是秘塔AI文库？

如何使用Anthropic最强AI模型Claude 3.5 Sonnet？

AI Agent：企业和我们普通人能做什么？

开源大模型巅峰对决！谷歌Gemma2被国产开源大模型秒了？

Multi-Agent ，知多少？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示