我要投稿

大模型时代的视频动静态封面生产方案及业务实践

发布日期：2025-03-31 20:23:43 浏览次数： 1640 作者：大淘宝技术

作为一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力，能够从供给端缓解内容生产成本高的问题，通过源源不断的低成本供给倒推消费生态的建立。过去一年，我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。

序言

淘宝近年来积极推进从传统货架电商向内容电商的战略转型。视频和直播作为内容电商的核心载体，旨在通过丰富的内容消费来促进用户订单的转化。然而，业务实践中发现，用户自主上传的封面质量参差不齐，低质量的封面直接影响用户的点击意愿，进而影响转化，尤其是有一些内容优质但是封面劣质的视频，由于没有优质的封面淹没在了内容的大海中，显得尤为可惜。

进一步分析，在不同的网络环境下，用户所展示的封面形式也有所区别：用户在移动数据流量环境下展示的是静态封面，而在WIFI环境下则展示动态封面。同时，封面存在于淘宝域内的多个业务场景下，不同业务场景对封面的需求有异有同，因此，如何在保证封面效果吸睛的同时，提升算法的多场景可迁移性，也成为我们需要考虑的问题。

基于上述背景，我们设计了一个基于多模态大模型的封面生成AIAgent，面向直播和视频场景的动态封面和静态封面，提供灵活高效的解决方案，以期在封面中浓缩直播和视频内容中最有价值、最具有吸引力的信息展示给用户，提升站内内容的点击率，进而拉动整体的内容消费。

▐ 1.静态封面

这里我们以搜索场域为例，列举了一些封面劣质的视频，并对比了优化前后的封面效果。

事实上，上述案例仅是淘内大量视频内容的冰山一角，这些视频内容或优或劣，但可能由于封面的质量不过关，在淘宝站内没有获得较好的分发。对比之下，我们优化后的封面中，商品主体清晰、构图美观、展示形式对用户具有较强的吸引力，并通过营销花字突出商品卖点，将核心信息快速传达给用户，从而能够发挥内容的最大上限。

▐ 2.动态封面

以下是我们为直播频道页直播卡生产的高光动态封面案例。

直播卡在WIFI网络环境下默认展示给用户的是直播实时流，实时流的优势是所见即所得，但问题是可能会出现无商品展示的空镜，或者主播实时展示商品的片段不够吸引人的情况，从而影响用户进入直播间的意愿。我们将实时流替换为商品展示的10秒高光片段，作为直播间的动态封面。AB实验表明，我们的方案相比其他两路动态封面方案，获得了最为显著和有效的点击率提升。

技术方案

在大模型蓬勃发展之前，已有许多算法自动化生产的封面投入应用。但是这些方案存在明显的通病，依据技术路线的不同，可以总体分为以下两类：

定制化小模型组合方案：针对每个业务需求定制开发并训练多个评估小模型（如人脸检测、人眼检测、商品检测等），综合多个小模型的结果选择封面。此类方法依赖的模型数量多，对于业务个性化需求的迁移能力差，难以适应快速变化的业务需求。
黑盒端到端方案：直接通过黑盒模型的方式端到端产出封面，实现技术上的优雅，但在实际应用中的可解释性较差。当不同业务方的实际需求存在差异时，模型的迁移难度和成本较高。

为了解决上述问题，我们提出了一套基于多模态大模型的封面生成AIAgent系统。该系统采用模块化的Agent架构，融合了多模态大模型的能力，通过各个模块的协同工作，系统能够以白盒、灵活、高效的方式支持不同的业务需求，实现高质量封面的自动化生产。

封面生成AIAgent包含以下核心模块：

Planning-规划模块：基于大语言模型，解析复杂的业务需求，制定封面生成策略和工作流。
Memory-记忆模块：基于内容理解得到的优质封面特征，构建知识库，存储封面生成的规则和评价标准，指导封面的个性化生产。
Action-行动模块：执行封面生成的具体操作，包括长视频处理、智能选帧、营销花字生成与自动布局等功能。
Reflection-反思模块：利用评价模型，对生成的封面进行质量评估，反馈优化建议，形成闭环，不断提升封面质量。

接下来，我将详细介绍各个模块的技术实现以及模块之间的协同。

▐ 1.Planning-规划模块

背景

在淘宝域内，封面存在于多类业务场景，业务场景对封面的需求存在较高的复杂度和多样性。具体地，不同的业务场景对封面的需求有异有同，如直播频道页要求封面中出现主播，但视频封面则不对此强制要求。即便是在同一业务场景下，由于面向行业的不同，也存在需求上的细粒度的差异。如搜索场域希望服饰行业的视频可以展示整体的穿搭效果，美妆行业的视频希望更侧重展示使用效果。

我们希望构建起支持业务自定义需求的可配置的业务规则引擎，支持业务输入一段任意的封面要求定义文本，系统自动解析、拆解并执行。

方案设计

针对业务需求的复杂性和多样性，我们设计了Planning模块。该模块利用大语言模型强大的拆解和规划能力，支持业务方对封面的复杂需求描述输入，自动解析需求并制定封面生成策略。具体来说，它将需求拆分为画面、文案、布局三大类，并根据需求的重要程度划分为必须满足(HavetoHave)和最好满足(BettertoHave)两类，然后路由至各个Action执行模块（如智能选帧、文案生成、自动布局）。

之所以将需求分为“必须满足”和“最好满足”两类，是因为需求的严格程度不同，需要在Action执行模块和Reflection模块中采取不同的处理方式。某些质量要求必须达成，例如图片清晰、无模糊，若有人物则需要眼睛睁开。而某些质量要求在最佳情况下满足即可，若无法满足也可接受。例如，关于上身穿搭展示服饰的要求，可能视频中仅有主播手持服饰展示的画面，在这种情况下，可以适当放宽此要求。

通过上述设计，Planning模块能够灵活、高效地处理多样化的业务需求，确保封面生成符合业务期望，并提升系统的可配置性和扩展性。

▐ 2.Memory-记忆模块

背景

由于业务场景复杂，业务方可能难以制定完善、合理且有效的封面选帧质量评估体系。若能基于域内不同封面的后验消费数据，分析优质封面的特征，为业务提供先验知识，将有效指导业务方制定评估体系，并指导封面生产策略。

方案设计

我们在封面AIAgent中设置了Memory模块，存储了一套预定义的封面选帧质量评估体系。该评估体系利用内容分析Agent，通过对优质封面的细粒度内容分析，得出先验结论。具备这些特征的封面通常具有更高的点击率，可在业务方封面质量需求不明确的情况下作为参考。

方案结果示意

▐ 3.Action-执行模块

行动模块是整个系统的核心，负责具体执行封面生成的各项任务，包括：

3.1智能选帧

3.1.1视频流处理引擎：基于ReKV的流式+长视频处理架构

背景

由于资源限制，传统的视频理解模型在处理长视频时受限于输入帧数，往往影响封面的选帧效果。

方案设计

为此，我们构建了基于ReKV的流式长视频处理引擎，主要特点包括：

高效推理：采用滑动窗口注意力机制减少计算开销，通过视频KV-Cache管理系统存储处理后的缓存并按需加载到GPU，仅检索与问题相关的视频KV-Cache进行计算，从而支持对长视频进行高效的流式分析。相比传统模型，显著提高了推理效率，降低了计算开销。
全局选帧：流式分析支持使用更高的FPS处理视频，从而在全局范围内选取更优的帧。
即插即用：可与任意视频/多图的大语言模型无缝集成，实现高效的长视频问答。

ReKV流式视频处理架构概览

方案结果示意

实验结果显示，基于ReKV的流式视频处理架构相比现有的视频问答模型，显著提高了计算效率，降低了计算开销，且验证能够在封面选帧任务中取得更优的效果。相关研究成果已投递ICLR（2025）。

Video QA的Accuracy、latency和GPU Memory对比	Benchmark测评结果

3.1.2 双阶段智能选帧 pipeline

背景

在一段视频中选择某个符合特定要求的帧，属于经典的视频VQA问题，通常可利用视频/多图理解模型实现。但是，由于资源限制，实际场景中能部署起来的视频和多图理解模型往往是7B/8B尺寸，其Instruction Following能力较差。而业务对选帧的需求往往较为复杂，因此仅利用预训练的视频和多图模型，通过Prompt Enginnering进行选帧，经验证难以达到质量要求。

方案设计

模型微调的方案对数据有标注量的要求，且不同业务对封面的要求有差异，可能需要面向不同的业务训练并部署多个模型。相比之下，我们选择采用Training-Free的方案，面向不同业务场景时无需多次训练和部署模型，实际应用起来更为灵活。具体实现层面，我们通过增加图片质量评估模块，检查图片的细节信息，弥补视频/多图模型Instruction Following能力差的缺陷。

综上所述，我们设计了双阶段智能选帧方案。通过两阶段的处理，既能保证选帧的全局性，又能够兼顾到图片细节的高质量。

第一阶段：视频模型初筛

利用预训练的视频/多图理解模型，对视频进行初步的优质帧选取。我们调研了目前开源的SOTA的视频/多图理解模型（包括Mantis、LLaVa-NeXT-Video等），经过在业务场景下测试，最终选用Mantis-8B-Idefics2作为视频选帧的基座模型。

由于视频模型的 Instruction Following 能力有限，仅利用其进行全局选较优，针对业务需求中的“Better to Have”指标，进行全局性的帧排序和筛选。

第二阶段：图片质量评估

图片质量评估模块中，由于模型不需要同时看到多帧，因此我们可引入尺寸更大的单图多模态模型，对上一阶段初筛得到的帧进行质量评估，检查图片是否符合Memory模块中定义的图片质量标准。

多模态模型对于一些常规问题可以较好解决，但封面图片评估标准中，有一些涉及到对图片细节的理解，如人物表情细节的判定、图片细节模糊的判定。目前实际业务中可部署的单图多模态理解模型，对于这些图片细节信息的理解能力有限，往往难以识别准确。经过测试，通过Prompt Enginering仍难以达到较好的效果，在此背景下，以往通常采用模型微调/小模型训练的方案解决。

我们选用Traing-Free的方案，通过 Chain-of-Thought（COT）提升模型的推理性能，通过多模型集成（Ensemble）进一步保证质量的通过率，在实际业务中验证能够满足业务对图片细节的质量要求，满足业务“Have to Have”的硬性要求。

我列举了一个典型的案例：在这个视频中，主播全程都在讲解商品，没有任何纯展示商品的定点画面。在淘宝平台内，有许多短视频都是主播密集讲解商品，对于这类视频，要选出一张主播表情正常的封面非常困难。尤其是在我提到的这个案例中，经过测试，直接采用当前业务中资源可部署、效果较佳的InternVL-40B-AWQ 进行推理，判断下表中间图片中的人物眼睛是睁开的。通过 COT（Chain-of-Thought）和模型Ensemble 方法后，可以有效地过滤掉这类情况。

3.2 智能生成营销卖点

背景

为了增强封面的吸引力，我们在封面上添加营销花字，目的是在封面中突出商品的核心卖点，让用户一目了然获取信息。

方案设计

我们构建了一套数据生成pipeline，并使用构造得到的数据SFT Qwen2.5-7B，得到封面卖点生成模型。该模型能够基于视频内容和商品信息，简明扼要概括商品核心卖点，让用户一目了然获取信息。

1. 数据构造阶段：

我们综合应用多种Prompt Enginering技巧，设计了Prompt模板，模板中包含风格控制、限制条件、Few-Shot示例、商品信息、视频的ASR+OCR信息。
通过大语言模型生成卖点标题，结合人工的打分反馈进行多轮Prompt模板的优化。
如此，我们获取了一批高质量的内容-标题数据pair对。

2. 模型训练阶段：我们选用Qwen2.5-7B作为基础模型，通过SFT微调，结合AWQ量化，得到面向内容的封面标题生成模型。

3.3 花字自动化布局

3.3.1 图片贴纸和字幕擦除

背景

视频和直播中大多存在一些凌乱的贴纸和字幕，如牛皮癣、ASR字幕等，会影响整体的美观度。如果直接拿原始截帧得到的图片添加花字作为封面，可能会导致整体画面要素过多，影响美观度，也会导致营销卖点花字不够突出。

因此，我们需要擦除截帧得到的封面图中的杂乱花字，提供一张整体较为干净的封面图片，用于花字布局。

方案设计

图片贴纸和字幕擦除属于图像处理的Image Inpainting领域，在我们的业务场景中，我们需要擦除除了商品文字外的其他文字，具体可拆解为如下三种情况：

1. 如果文本框与商品有重叠，并部分超出商品范围，通常是ASR字幕/品牌等文字，需要以段落文本的形式全部擦除；

2. 如果文本框全部在商品范围内，则保留，这是为了防止擦除商品上的文本信息；

3. 如果文本框全部在商品范围外，则全部擦除。

我们将封面的以上诉求进行梳理，对接商家智能团队，调用其字幕和牛皮癣擦除能力，在实际业务中取得了较好的效果，也通过在实际场景的应用，助力了兄弟团队算法的优化与进步。

方案结果示意

擦除前	擦除后

3.3.2 花字自动布局

背景

在生成营销卖点后，需要基于图片构图，确定花字的最佳摆放位置与排版方式（横排/竖排等），确保花字不遮挡重要信息（人脸、商品等）。同时，还需要综合图片商品主体及背景的颜色，选择匹配的花字样式和颜色，以保证花字在整体中布局的和谐与美观。

方案设计

我们训练了一套可自动布局花字的多模态理解模型，可通过分析封面图的构图，自动避开图片中的重要元素（如人脸、商品等），确定花字的摆放位置和字体大小。
考虑花字的清晰度和画面整体的美观和谐度，基于图片中的主体和背景颜色，利用多模态大模型，推荐最适合图片的花字颜色。基于颜色推荐结果，在字体样式库内检索得到对应的样式，实现花字的渲染。

方案结果示意

▐ 4.Reflection-反思模块

背景

上述多个执行模块之间既相互耦合，又保持相对独立性。然而，不同模块的执行结果可能会出现冲突。例如，商品在画面中占据了绝大多数空间，实际可放置花字的区域较小，导致过长的花字难以实现合理、美观的布局；又如，封面花字中提到的商品颜色可能与截帧中展示的商品颜色不一致。

方案设计

为确保各模块执行的协调性，我们在封面生成Agent中引入了反思模块。该反思模块会读取记忆模块（Memory）的质量评估要求，基于多模态大模型，逐项评估和审查各项是否达标。通过不断的反思与优化，提升封面、花字和布局模块之间的协同度，从而提高封面的整体质量。

举一个典型的案例：在某个视频中，商品信息包含黑色款式。初次生成封面时，营销花字和画面中的商品颜色不一致。经过反思模块的优化后，我们在标题中去除了颜色信息，最终得到了新版本的封面。

总结

我们通过构建基于多模态大模型的封面生成 AI Agent，成功实现了在淘宝视频和直播场景下的高质量封面自动化生产。该系统采用模块化的 Agent 架构，融合了规划、记忆、执行和反思等核心模块，充分利用大语言模型的强大能力，灵活应对业务方对封面的复杂需求。

在技术实现方面，我们引入了 ReKV 流式长视频处理技术，解决了长视频处理中的效率瓶颈，支持全局范围内的优质帧选取。通过双阶段智能选帧策略，既保证了选帧的全局性，又提升了封面图片的细节质量。我们还利用大语言模型的能力，自动生成符合商品特点的营销花字，并通过智能布局算法，实现了花字的最佳摆放和美观呈现。反思模块的加入，使系统能够不断自我优化，提升各模块的协同效果。

实际业务落地证明，该方案显著提升了封面的点击率，增强了用户的内容消费意愿。同时，模块化的设计使系统具备了高可扩展性和迁移性，能够灵活满足多样化的业务需求，为淘宝内容生态的发展提供了有力支持。