AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


多模态自动布局技术发展及其在淘内内容场的应用

发布日期:2025-03-12 21:55:31 浏览次数: 1530 来源:大淘宝技术
推荐语

淘宝内容AI技术的最新实践与应用,探索多模态自动布局的未来发展。

核心内容:
1. 多模态自动布局技术在淘宝内容场的应用案例
2. 淘宝AIGC内容生成技术的核心优势与成果
3. 多模态自动布局技术的发展现状与未来趋势

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
图片



作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年,我们通过在视频生成、图文联合生成等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。


第一篇《淘宝内容AI团队2024年8篇论文总结》

第二篇《内容AI: 目标驱动的图像生成》

第三篇《OpenAI o1模型的前世今生》

第四篇《多模态人物视频驱动技术回顾与业务应用》

第五篇视频级虚拟试衣技术在淘宝的产品化实践
第六篇大模型时代的内容分析Agent解决方案与业务实践
第七篇淘宝全新图生视频大模型“淘宝法象”,助力商家降本增效
第八篇大模型时代的视频动静态封面生产方案及业务实践
第九篇MLLM在电商域互动内容生产的实践


图片

背景


随着数字化内容创作需求的迅速增长,传统的手工设计方式已经难以满足大规模、多样化的布局需求。多模态自动布局技术应运而生,利用计算机视觉与自然语言处理等先进技术,实现从输入图像素材到输出包含图像与文字的海报布局的自动化生成。该技术通过深度学习模型,能够理解图像和文本之间的语义关联,智能地进行元素的排布与优化,提升设计效率和一致性。


近年来,随着深度神经网络、生成对抗网络以及强化学习等技术的不断发展,多模态自动布局的精度和适应性得到了显著提升。此外,用户个性化需求的增多也推动了该技术在电子商务、广告设计、社交媒体等领域的广泛应用。尤其是在淘内内容场域,多模态自动布局技术能够辅助生成高质量的视觉内容,极大地提升了内容的产出效率。因此,研究和应用多模态自动布局技术在优化内容生产流程、提升视觉传播效果方面具有重要意义。


本文从多模态自动布局的技术路线出发,简述了在多模态技术日新月异的发展环境下的技术选型,包括不同模型架构的比较与评估。之后,我们在实际应用过程中一些技术和业务上的挑战,并从数据策略、模型训练优化等方面展示了我们的探索。随着多模态自动布局技术在内容生成与展示中的成功落地,生产效率和内容质量得到了显著提升。最后,我们对多模态自动布局技术的未来发展方向进行了展望和总结。


图片
技术路线

多模态自动布局模型以图像和文本素材作为输入,并根据指令生成包含所有素材并满足指令要求的定制化布局模板。布局信息天然具有多种形式的表示方式,如图像直接显示、结构化文本描述、及 html 这样自带结构信息的代码表示等。那么,如何进行技术选型,是算法研发和业务落地中重要的一步。

从布局的表示形式来区分,技术路线主要分为基于图像生成和基于坐标预测两种模式:

(1)基于图像生成的方案将布局表示为图像,并通过 diffusion 等图像生成模型进行输出。图像形式的布局更加直观,但难以直接转化为模板来进行后续的成品海报渲染等操作。所以我们需要进一步进行生成图像的模板元素解析,来得到结构化的布局输出。其完整链路可表示为:


基于图像生成的方案流程


该方案先合成初版海报再解析,可以为后续设计人员提供海报布局图片的参考,结合结构化的初始化布局,能够有更直观的对照和参考;但其需要海报合成模型和布局解析模型串联生成最终布局信息,可能导致链路较长,同时受制于布局解析模型的精度最终效果可能会有损失。


(2) 基于坐标预测的方法将布局中各元素直接表示为归一化坐标,可基于 LLM 或 diffusion 模型进行预测。基于 diffusion 的模型通过逐步对初始化元素框的坐标进行去噪来实现预测;而基于 LLM 的方法将布局表示为结构化文本,由语言模型以自回归的方式进行预测。模型输出的结果可以作为初始布局建议,直接嵌入到后续 MAI 结构化模板的生产链路中,其架构如下图所示:


基于LLM坐标预测的方案经典流程


基于坐标预测的方法可以端到端地进行布局生成,易于优化,且无需训练额外的解析模块。但由于其不能生成初版的布局图片展示,无法为设计同学提供更多直观的参考信息。


图片

业务落地


不论是基于 LLM 还是基于 diffusion 的模型,其训练和推理成本都是巨大的,那么对于路线的选择就显得尤为重要。要想在业务中成功落地,我们主要面临以下几个挑战:


  • 文案类别多:海报设计涉及多种文案类型,包括标题、副标题、正文、标语等,每类文案在风格、长度和语义上都有所不同。不同类别的文案需要模型具备强大的理解和生成能力,以确保每种文案在视觉上和内容上都能有效传达信息。此外,文案的多样性还要求模型能够适应不同的行业和主题,如时尚、科技、教育等,这对模型的泛化能力提出了更高的要求。处理多类别文案的复杂性不仅增加了训练难度,也对模型在实际应用中的表现提出了严苛的考验。

  • 可扩展性要求高:在海报布局生成业务中,随着用户需求的不断增长和多样化,系统必须具备高度的可扩展性,需要对新功能和新模块进行快速集成。比如在实际使用场景中,可能会根据需求引入新的布局元素,如贴纸、Logo 等。传统的模型在扩展时往往面临训练时间长、资源消耗大的问题。因此,选择具备良好扩展性的模型架构和优化算法显得尤为重要。

  • 场景多样:布局设计应用涵盖了广泛的使用场景,如商品海报、广告宣传、笔记封面等。每种场景都有其特定的设计需求和视觉风格,要求模型能够灵活适应不同的上下文和审美标准。这种多样性不仅涉及元素位置,还包括颜色、文字长度等多个维度的协调。模型需要在保持一致性的同时,满足不同场景的独特需求。此外,跨场景的一致体验也是一个挑战,确保在各种应用场景中,生成的布局都有足够的可用性。


近年来,多模态大模型取得了快速的发展,为布局生成业务提供了新的契机和解决方案。选择多模态大模型的主要理由在于其能够同时处理和理解文本与图像信息,实现文案与视觉元素的无缝融合。这对于应对文案类别多样和场景复杂的需求尤为重要。多模态模型具备强大的泛化能力和灵活性,能够适应不同行业和主题的设计需求,提升系统的可扩展性。此外,这类模型在预训练阶段已经积累了丰富的跨模态知识,具有较好的指令跟随能力, 相对于其他传统方法更适合生成不同指令下的定制化结果。


  数据和训练


我们的方案以多模态大模型为基础,接受图像和文本素材作为输入,并根据指令直接产生布局的结构化文本。但大模型需要大量训练数据,获取高质量的大规模训练数据,是任务的关键和基础。对此,我们搜集了大量开源海报数据及淘内图像布局数据。布局数据作为对图像的细粒度解析,对素材坐标框和文本内容的准确性要求很高,其现有数据是十分匮乏的。在准确性要求高的前提下,最可靠的方式即是人工进行标注,但人工标注的低效和所需的巨大时间成本大大限制了模型的快速迭代。目前,现有预训练多模态大模型对图像的理解能力已经达到了一个可靠的水平,那么使用更加强大的多模态大模型进行自动化标注,是一个快速且有效的方法。考虑到计算成本和准确性的要求,我们在少量人工指导的基础上使用 internvl2 对大规模海报数据进行自动化标注,标注示例如下图所示:


原始布局图片 标注结构化数据

{  "文本": {    "主标题": [      {        "ocr": "关键包品: 编织手法",        "box": "[137, 126, 851, 207]",        "文本语言": "中文",        "文本主体色调": "黑",      }    ],    "卖点": [      {        "ocr": "柔软皮革",......


对大模型的能力和推理成本做了权衡之后,我们选择了 qwen-vl-7b 作为该任务的基座模型。我们在 deepspeed 框架下进行了基于 LoRA 的微调。为了减小数据偏见,增强模型处理多样性需求的能力(例如在现有不完整布局下的内容补全,封面自适应突出主体等),我们对布局的素材框进行了随机加噪和随机部分掩蔽的策略,使模型的训练结果更具鲁棒性。


  业务应用


自动布局技术在淘内内容场域有着广泛的应用。在营销图生成业务中,自动布局技术是关键的一环。在处理链路中,我们通过布局生成模型生成商品位置的参考,以指导文生图模型根据商品生成具有丰富背景的海报底图,并通过文本自动布局模型自适应地排版宣传文案,满足其视觉效果上的需求。



自动布局技术在视频封面中也有广泛的应用,例如在主搜智能封面业务中,我们需要将花字自动放置在封面中合适的位置,以避免对图中关键元素和已有文字的遮挡。视频封面图中的重点不仅包含图像的主体(即占据图像大部分空间的人物),更加需要突出的是人物所介绍的商品。所以,模型需要有理解商品信息的能力,才能更好地实现对主体的突出。此外,模型在该场景下还需要具有对图像风格、色调等整体风格信息的理解能力,以选择更适合的文字样式,而不是预先固定的广告字体。目前,结合花字自动布局的主搜封面产出业务采纳率 90%+,显著提升封面生产效率和美观度。



图片

未来发展方向


随着人工智能技术的不断进步,多模态布局生成技术在海报设计等视觉创作领域展现出巨大的潜力和应用前景。未来,随着算法的优化和计算能力的提升,这项技术将更加智能化、个性化和高效化,满足日益多样化的用户需求,并推动视觉设计的创新与变革。我们根据目前的技术路线和业务痛点,将未来的发展方向总结为以下几点:


  1. 多图布局生成技术:未来,多模态布局生成技术将进一步发展多图布局生成能力,实现对多个图像元素的协调和集成。通过智能识别和理解不同图像之间的关系,系统可以自动生成复杂且美观的多图布局,适用于广告展示、产品组合展示等多种场景。这不仅提升了设计效率,也增强了视觉表现力,使得海报更加丰富多样,满足用户对复杂信息展示的需求。

  2. 具有个性化和风格化的布局建议:个性化和风格化是目前布局生成较为缺乏的特性,这需要系统能够根据用户的偏好、品牌风格及特定需求,提供量身定制的布局建议,提升品牌识别度和用户满意度。同时,这也使得布局设计更加多样化和富有创意,满足不同用户群体的个性化需求。

  3. 结合人工反馈的布局优化:为了进一步提升生成布局的整体的协调性和艺术性,我们将更加注重与人工反馈的结合。设计师和用户可以通过反馈机制,对生成的布局进行评价和调整,帮助模型优化和提升其艺术表现力。这使得系统不仅能够学习和模仿人类的设计风格,还能在反馈的基础上不断迭代和改进。


图片
团队介绍

我们是淘天内容AI团队,负责运用最新的生成式AI能力,挖掘淘宝核心场景的痛点问题,通过内容生成、智能交互等方式,改善用户购物体验、降低平台&商家经营门槛。在过去的几年团队持续以技术驱动产品和商业创新,在给业务创造价值的同时,也在Agent、可控图文、视频生成,多模态统一大模型等最前沿的技术领域也有着广泛布局和深度探索,在NIPS,CVPR,ICLR等顶会发表了数十篇论文,欢迎对团队技术工作感兴趣的同学进行交流或者加入我们。






53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询