支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型时代的视频动静态封面生产方案及业务实践

发布日期:2025-03-31 20:23:43 浏览次数: 1559 作者:大淘宝技术
推荐语

掌握大模型时代的视频封面生成技术,提升内容电商转化率。

核心内容:
1. AIGC内容生成技术在手淘的规模化应用
2. 动态封面与静态封面的优化实践
3. 封面生成AIAgent在直播和视频场景的应用效果

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力,能够从供给端缓解内容生产成本高的问题,通过源源不断的低成本供给倒推消费生态的建立。过去一年,我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。



图片

序言


淘宝近年来积极推进从传统货架电商向内容电商的战略转型。视频和直播作为内容电商的核心载体,旨在通过丰富的内容消费来促进用户订单的转化。然而,业务实践中发现,用户自主上传的封面质量参差不齐,低质量的封面直接影响用户的点击意愿,进而影响转化,尤其是有一些内容优质但是封面劣质的视频,由于没有优质的封面淹没在了内容的大海中,显得尤为可惜。


进一步分析,在不同的网络环境下,用户所展示的封面形式也有所区别:用户在移动数据流量环境下展示的是静态封面,而在WIFI环境下则展示动态封面。同时,封面存在于淘宝域内的多个业务场景下,不同业务场景对封面的需求有异有同,因此,如何在保证封面效果吸睛的同时,提升算法的多场景可迁移性,也成为我们需要考虑的问题。

基于上述背景,我们设计了一个基于多模态大模型的封面生成AIAgent,面向直播和视频场景的动态封面和静态封面,提供灵活高效的解决方案,以期在封面中浓缩直播和视频内容中最有价值、最具有吸引力的信息展示给用户,提升站内内容的点击率,进而拉动整体的内容消费。

  1.静态封面


这里我们以搜索场域为例,列举了一些封面劣质的视频,并对比了优化前后的封面效果。


事实上,上述案例仅是淘内大量视频内容的冰山一角,这些视频内容或优或劣,但可能由于封面的质量不过关,在淘宝站内没有获得较好的分发。对比之下,我们优化后的封面中,商品主体清晰、构图美观、展示形式对用户具有较强的吸引力,并通过营销花字突出商品卖点,将核心信息快速传达给用户,从而能够发挥内容的最大上限。


  2.动态封面


以下是我们为直播频道页直播卡生产的高光动态封面案例。


直播卡在WIFI网络环境下默认展示给用户的是直播实时流,实时流的优势是所见即所得,但问题是可能会出现无商品展示的空镜,或者主播实时展示商品的片段不够吸引人的情况,从而影响用户进入直播间的意愿。我们将实时流替换为商品展示的10秒高光片段,作为直播间的动态封面。AB实验表明,我们的方案相比其他两路动态封面方案,获得了最为显著和有效的点击率提升。



图片
技术方案

在大模型蓬勃发展之前,已有许多算法自动化生产的封面投入应用。但是这些方案存在明显的通病,依据技术路线的不同,可以总体分为以下两类:

  1. 定制化小模型组合方案:针对每个业务需求定制开发并训练多个评估小模型(如人脸检测、人眼检测、商品检测等),综合多个小模型的结果选择封面。此类方法依赖的模型数量多,对于业务个性化需求的迁移能力差,难以适应快速变化的业务需求。

  2. 黑盒端到端方案:直接通过黑盒模型的方式端到端产出封面,实现技术上的优雅,但在实际应用中的可解释性较差。当不同业务方的实际需求存在差异时,模型的迁移难度和成本较高。


为了解决上述问题,我们提出了一套基于多模态大模型的封面生成AIAgent系统。该系统采用模块化的Agent架构,融合了多模态大模型的能力,通过各个模块的协同工作,系统能够以白盒、灵活、高效的方式支持不同的业务需求,实现高质量封面的自动化生产


封面生成AIAgent包含以下核心模块:

  • Planning-规划模块:基于大语言模型,解析复杂的业务需求,制定封面生成策略和工作流。

  • Memory-记忆模块:基于内容理解得到的优质封面特征,构建知识库,存储封面生成的规则和评价标准,指导封面的个性化生产。

  • Action-行动模块:执行封面生成的具体操作,包括长视频处理、智能选帧、营销花字生成与自动布局等功能。

  • Reflection-反思模块:利用评价模型,对生成的封面进行质量评估,反馈优化建议,形成闭环,不断提升封面质量。



接下来,我将详细介绍各个模块的技术实现以及模块之间的协同。


 1.Planning-规划模块


背景

在淘宝域内,封面存在于多类业务场景,业务场景对封面的需求存在较高的复杂度和多样性。具体地,不同的业务场景对封面的需求有异有同,如直播频道页要求封面中出现主播,但视频封面则不对此强制要求。即便是在同一业务场景下,由于面向行业的不同,也存在需求上的细粒度的差异。如搜索场域希望服饰行业的视频可以展示整体的穿搭效果,美妆行业的视频希望更侧重展示使用效果。


我们希望构建起支持业务自定义需求的可配置的业务规则引擎,支持业务输入一段任意的封面要求定义文本,系统自动解析、拆解并执行。


方案设计

针对业务需求的复杂性和多样性,我们设计了Planning模块。该模块利用大语言模型强大的拆解和规划能力,支持业务方对封面的复杂需求描述输入,自动解析需求并制定封面生成策略。具体来说,它将需求拆分为画面、文案、布局三大类,并根据需求的重要程度划分为必须满足(HavetoHave)和最好满足(BettertoHave)两类,然后路由至各个Action执行模块(如智能选帧、文案生成、自动布局)


之所以将需求分为“必须满足”和“最好满足”两类,是因为需求的严格程度不同,需要在Action执行模块和Reflection模块中采取不同的处理方式。某些质量要求必须达成,例如图片清晰、无模糊,若有人物则需要眼睛睁开。而某些质量要求在最佳情况下满足即可,若无法满足也可接受。例如,关于上身穿搭展示服饰的要求,可能视频中仅有主播手持服饰展示的画面,在这种情况下,可以适当放宽此要求。


通过上述设计,Planning模块能够灵活、高效地处理多样化的业务需求,确保封面生成符合业务期望,并提升系统的可配置性和扩展性。


  2.Memory-记忆模块


背景

由于业务场景复杂,业务方可能难以制定完善、合理且有效的封面选帧质量评估体系。若能基于域内不同封面的后验消费数据,分析优质封面的特征,为业务提供先验知识,将有效指导业务方制定评估体系,并指导封面生产策略。


方案设计

我们在封面AIAgent中设置了Memory模块,存储了一套预定义的封面选帧质量评估体系。该评估体系利用内容分析Agent,通过对优质封面的细粒度内容分析,得出先验结论。具备这些特征的封面通常具有更高的点击率,可在业务方封面质量需求不明确的情况下作为参考。



方案结果示意


  3.Action-执行模块


行动模块是整个系统的核心,负责具体执行封面生成的各项任务,包括:


  • 3.1智能选帧


3.1.1视频流处理引擎:基于ReKV的流式+长视频处理架构


背景

由于资源限制,传统的视频理解模型在处理长视频时受限于输入帧数,往往影响封面的选帧效果。


方案设计

为此,我们构建了基于ReKV的流式长视频处理引擎,主要特点包括:

  • 高效推理:采用滑动窗口注意力机制减少计算开销,通过视频KV-Cache管理系统存储处理后的缓存并按需加载到GPU,仅检索与问题相关的视频KV-Cache进行计算,从而支持对长视频进行高效的流式分析。相比传统模型,显著提高了推理效率,降低了计算开销。

  • 全局选帧:流式分析支持使用更高的FPS处理视频,从而在全局范围内选取更优的帧。

  • 即插即用:可与任意视频/多图的大语言模型无缝集成,实现高效的长视频问答。


ReKV流式视频处理架构概览


方案结果示意

实验结果显示,基于ReKV的流式视频处理架构相比现有的视频问答模型,显著提高了计算效率,降低了计算开销,且验证能够在封面选帧任务中取得更优的效果。相关研究成果已投递ICLR(2025)。


Video QA的Accuracy、latency和GPU Memory对比Benchmark测评结果


3.1.2 双阶段智能选帧 pipeline



背景


在一段视频中选择某个符合特定要求的帧,属于经典的视频VQA问题,通常可利用视频/多图理解模型实现。但是,由于资源限制,实际场景中能部署起来的视频和多图理解模型往往是7B/8B尺寸,其Instruction Following能力较差。而业务对选帧的需求往往较为复杂,因此仅利用预训练的视频和多图模型,通过Prompt Enginnering进行选帧,经验证难以达到质量要求。



方案设计


模型微调的方案对数据有标注量的要求,且不同业务对封面的要求有差异,可能需要面向不同的业务训练并部署多个模型。相比之下,我们选择采用Training-Free的方案,面向不同业务场景时无需多次训练和部署模型,实际应用起来更为灵活。具体实现层面,我们通过增加图片质量评估模块,检查图片的细节信息,弥补视频/多图模型Instruction Following能力差的缺陷。



综上所述,我们设计了双阶段智能选帧方案。通过两阶段的处理,既能保证选帧的全局性,又能够兼顾到图片细节的高质量



第一阶段:视频模型初筛


利用预训练的视频/多图理解模型,对视频进行初步的优质帧选取。我们调研了目前开源的SOTA的视频/多图理解模型(包括Mantis、LLaVa-NeXT-Video等),经过在业务场景下测试,最终选用Mantis-8B-Idefics2作为视频选帧的基座模型。




由于视频模型的 Instruction Following 能力有限,仅利用其进行全局选较优,针对业务需求中的“Better to Have”指标,进行全局性的帧排序和筛选。



第二阶段:图片质量评估


图片质量评估模块中,由于模型不需要同时看到多帧,因此我们可引入尺寸更大的单图多模态模型,对上一阶段初筛得到的帧进行质量评估,检查图片是否符合Memory模块中定义的图片质量标准。



多模态模型对于一些常规问题可以较好解决,但封面图片评估标准中,有一些涉及到对图片细节的理解,如人物表情细节的判定、图片细节模糊的判定。目前实际业务中可部署的单图多模态理解模型,对于这些图片细节信息的理解能力有限,往往难以识别准确。经过测试,通过Prompt Enginering仍难以达到较好的效果,在此背景下,以往通常采用模型微调/小模型训练的方案解决。



我们选用Traing-Free的方案,通过 Chain-of-Thought(COT)提升模型的推理性能,通过多模型集成(Ensemble)进一步保证质量的通过率,在实际业务中验证能够满足业务对图片细节的质量要求,满足业务“Have to Have”的硬性要求。



我列举了一个典型的案例:在这个视频中,主播全程都在讲解商品,没有任何纯展示商品的定点画面。在淘宝平台内,有许多短视频都是主播密集讲解商品,对于这类视频,要选出一张主播表情正常的封面非常困难。尤其是在我提到的这个案例中,经过测试,直接采用当前业务中资源可部署、效果较佳的InternVL-40B-AWQ 进行推理,判断下表中间图片中的人物眼睛是睁开的。通过 COT(Chain-of-Thought)和 模型Ensemble 方法后,可以有效地过滤掉这类情况。



  • 3.2 智能生成营销卖点



背景


为了增强封面的吸引力,我们在封面上添加营销花字,目的是在封面中突出商品的核心卖点,让用户一目了然获取信息。



方案设计


我们构建了一套数据生成pipeline,并使用构造得到的数据SFT Qwen2.5-7B,得到封面卖点生成模型。该模型能够基于视频内容和商品信息,简明扼要概括商品核心卖点,让用户一目了然获取信息。


1. 数据构造阶段:


  1. 我们综合应用多种Prompt Enginering技巧,设计了Prompt模板,模板中包含风格控制、限制条件、Few-Shot示例、商品信息、视频的ASR+OCR信息。


  2. 通过大语言模型生成卖点标题,结合人工的打分反馈进行多轮Prompt模板的优化。


  3. 如此,我们获取了一批高质量的内容-标题数据pair对。


2. 模型训练阶段:我们选用Qwen2.5-7B作为基础模型,通过SFT微调,结合AWQ量化,得到面向内容的封面标题生成模型。




  • 3.3 花字自动化布局



3.3.1 图片贴纸和字幕擦除



背景


视频和直播中大多存在一些凌乱的贴纸和字幕,如牛皮癣、ASR字幕等,会影响整体的美观度。如果直接拿原始截帧得到的图片添加花字作为封面,可能会导致整体画面要素过多,影响美观度,也会导致营销卖点花字不够突出。


因此,我们需要擦除截帧得到的封面图中的杂乱花字,提供一张整体较为干净的封面图片,用于花字布局。



方案设计


图片贴纸和字幕擦除属于图像处理的Image Inpainting领域,在我们的业务场景中,我们需要擦除除了商品文字外的其他文字,具体可拆解为如下三种情况:


1. 如果文本框与商品有重叠,并部分超出商品范围,通常是ASR字幕/品牌等文字,需要以段落文本的形式全部擦除;


2. 如果文本框全部在商品范围内,则保留,这是为了防止擦除商品上的文本信息;


3. 如果文本框全部在商品范围外,则全部擦除。



我们将封面的以上诉求进行梳理,对接商家智能团队,调用其字幕和牛皮癣擦除能力,在实际业务中取得了较好的效果,也通过在实际场景的应用,助力了兄弟团队算法的优化与进步。



方案结果示意



擦除前擦除后


3.3.2 花字自动布局



背景


在生成营销卖点后,需要基于图片构图,确定花字的最佳摆放位置与排版方式(横排/竖排等),确保花字不遮挡重要信息(人脸、商品等)。同时,还需要综合图片商品主体及背景的颜色,选择匹配的花字样式和颜色,以保证花字在整体中布局的和谐与美观。



方案设计


  • 我们训练了一套可自动布局花字的多模态理解模型,可通过分析封面图的构图,自动避开图片中的重要元素(如人脸、商品等),确定花字的摆放位置和字体大小。


  • 考虑花字的清晰度和画面整体的美观和谐度,基于图片中的主体和背景颜色,利用多模态大模型,推荐最适合图片的花字颜色。基于颜色推荐结果,在字体样式库内检索得到对应的样式,实现花字的渲染。



方案结果示意


  4.Reflection-反思模块


背景


上述多个执行模块之间既相互耦合,又保持相对独立性。然而,不同模块的执行结果可能会出现冲突。例如,商品在画面中占据了绝大多数空间,实际可放置花字的区域较小,导致过长的花字难以实现合理、美观的布局;又如,封面花字中提到的商品颜色可能与截帧中展示的商品颜色不一致。



方案设计


为确保各模块执行的协调性,我们在封面生成Agent中引入了反思模块。该反思模块会读取记忆模块(Memory)的质量评估要求,基于多模态大模型,逐项评估和审查各项是否达标。通过不断的反思与优化,提升封面、花字和布局模块之间的协同度,从而提高封面的整体质量



举一个典型的案例:在某个视频中,商品信息包含黑色款式。初次生成封面时,营销花字和画面中的商品颜色不一致。经过反思模块的优化后,我们在标题中去除了颜色信息,最终得到了新版本的封面。


图片

总结


我们通过构建基于多模态大模型的封面生成 AI Agent,成功实现了在淘宝视频和直播场景下的高质量封面自动化生产。该系统采用模块化的 Agent 架构,融合了规划、记忆、执行和反思等核心模块,充分利用大语言模型的强大能力,灵活应对业务方对封面的复杂需求。



在技术实现方面,我们引入了 ReKV 流式长视频处理技术,解决了长视频处理中的效率瓶颈,支持全局范围内的优质帧选取。通过双阶段智能选帧策略,既保证了选帧的全局性,又提升了封面图片的细节质量。我们还利用大语言模型的能力,自动生成符合商品特点的营销花字,并通过智能布局算法,实现了花字的最佳摆放和美观呈现。反思模块的加入,使系统能够不断自我优化,提升各模块的协同效果。



实际业务落地证明,该方案显著提升了封面的点击率,增强了用户的内容消费意愿。同时,模块化的设计使系统具备了高可扩展性和迁移性,能够灵活满足多样化的业务需求,为淘宝内容生态的发展提供了有力支持。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询