微信扫码
与创始人交个朋友
我要投稿
不同于其他电商场景,外卖业务下大量中小商家营销能力弱,菜品图像质量差,因此在C端对菜品图利用AIGC技术进行美化存在较大的潜力。自2023年以来,美团针对智能头图展示的菜品供给利用AIGC技术进行全面优化,结合图像生成以及视频生成技术,生成素材日曝光达到2亿。本文将介绍美团在视觉AIGC技术落地过程中遇到的挑战以及解决思路。
1. 背景
2. 自然流量下AIGC投放挑战
3. 外卖业务视觉生成创意实践
3.1 图像创意
3.2 视频创意
4. 落地探索
5. 总结
6. 本文作者
7. 参考文献
1. 背景
美团外卖服务了数亿用户,在推荐场景下,流量分发主要以商家列表形式为主,菜品图则是商家极为重要的展示素材。然而,对于外卖业务,存在大量中小商家,他们的营销能力弱,菜品图像质量较差,在影响用户体验的同时,降低了商家以及平台的转化效率。在过去的迭代中,业内对于自然流量一般只进行内容理解进而优化排序结果,只有广告商业化等才会考虑优化创意供给,提升商家图像质量。自2023年以来,随着以Stable Diffusion为带代表的视觉内容生成模型出现,海量的高质量素材生成已经逐渐成为可能。因此,我们尝试在自然流量下以较低的成本探索大规模视觉创意生产及投放,以提升用户体验,驱动业务增长。
从以Midjourney、Pika为代表的视觉生成产品问世以来,各类基于生成式模型的应用层出不穷。对于外卖业务,AIGC技术在落地时仍存在其独特的问题与挑战,它们包括:
针对以上问题,我们选取图像生成以及视频生成两大能力进行迭代,并在落地时按照图1的方式展开全流程优化。对于图像生成,我们着重优化了语义理解能力和可控生成能力;针对视频生成,我们则主要针对动态效果和镜头控制两个方向进行技术建设。为减少AIGC素材潜在的业务风险,我们选择了智能头图作为当前AIGC落地的主要场景。
在这一场景中,为了增强商家对用户的吸引力,会通过个性化推荐模型将商家售卖的商品图直接展现给用户。但由于用户还需要进店选购,在该场景不会产生实际的成交,从侧面降低了AIGC素材与实际素材不一致的业务风险。此外,为了避免异常素材被投放,我们通过自动审核链路以及小流量AB效果测试,过滤低质素材,以降低人工审核成本,同时保证最终全量投放的素材的效果。
如何构建美食垂类生成模型并实现优化素材的业务场景投放,是一个系统而相对复杂的算法问题。为了解决这个问题,我们进行了一系列的探索,初步总结了一套从基础数据、数据工程、模型构建到素材投放的算法框架(如下图2所示),为后续的模型优化、场景扩展等奠定了基础。
为了建设中文语境下美食垂类文生图模型,面临的第一个问题是如何构建美食垂类概念下的Text Encoder。这个Text Encoder不仅对中式菜有很好的语义理解和区分能力,并且具有一定的通用概念能力,进而满足多样化可控性生成的需求。然而,构建统一的语义理解模型来对美食垂类和通用概念同时进行编码的成本较高。因此,我们借鉴SD3[1]多Text Encoder集成的模式,采用两种不同的Text Encoder分别做美食垂类语义理解以及通用概念理解。此外,为了以更低的成本获取美食垂类编码器,我们选择采用基于CLIP对比学习的编码器;对通用概念,我们则选择中文LLM模型作为编码器。
1)菜品概念理解
在当前主流的文本编码器中,主要是以英文语料为主的多模态学习模型OpenCLIP。解决中式菜品理解和编码能力的一种思路是,将中文菜翻译成英文,再直接利用OpenCLIP进行编码。但由于中式菜跟西式菜存在较大的区别,导致翻译的英文菜名与中式菜在语义上存在较大的gap。另一种思路是利用现有中文CLIP模型,如Taiyi-CLIP、ChineseCLIP、AltCLIP等开源模型,然而这些Text Encoder训练时并没有专门注入美食垂类领域知识,对于美食概念难以准确表达。
因此,为了更好学习中文美食概念,我们借鉴AltCLIP[2]的思路,设计了兼顾通用概念以及美食概念的文本编码器StarLight-CLIP。StarLight-CLIP通过两阶段训练方式进行构建:首先,通过中英文对齐的方式,获取一个尽可能继承原始英文语义表征能力的对比学习模型StarLight-CLIP-base,该阶段的中文训练数据集中混入少量美食数据;然后,在此基础上进行第二阶段训练,获得专门注入大量美食垂类知识的对比学习模型StarLight-CLIP-food。
StarLight-CLIP-base:首先在文本编码器层面,我们通过蒸馏学习将StarLight-CLIP输出的中文语义向量对齐到teacher模型(OpenCLIP)的原始英文语义向量上,使StarLight-CLIP的中文编码器能“继承”OpenCLIP强大的语义表征能力,作为Stage 1阶段;其次,我们在50m通用概念数据中混入了11m外卖美食数据进行概念注入,通过固定OpenCLIP图像编码器而只训练StarLight-CLIP文本编码器的方式,经过对比学习来提升了菜品相关文本表征的效果,作为Stage 2阶段。通过离线benchmark评估结果(如下表1)可知,自研模型StarLight-CLIP-base在下游各领域任务上超越了当前SOTA的中文表征模型Alt-CLIP-18m[3]等,既学习到了较强的中文通用概念,也获得了很好的美食概念注入。
StarLight-CLIP-food:在这一阶段主要做美食垂类领域知识注入,且放弃通用概念能力。基于base模型,我们收集了当前外卖服务的130m美食图片数据。在该数据集上继续进行Stage 2阶段的美食垂类领域知识学习。通过如下表2的性能对比可知,该模型在美食垂类上的性能大幅度提升。
2)通用概念理解
在数据层面,我们采用视觉大语言模型进行详细标注以获取更为丰富的图片信息。考虑到在做全自动化海量素材推理时,利用LLM进行详细的Prompt改写相对困难且不可控。为了解决这一问题,保证生成标注与推理Prompt的一致性,我们利用vLLM多模态大模型对菜品图片的关键信息进行结构化标注,Prompt标注提示词如下:
Prompt:你是一个数据标注员,下面是'xxx'的美食图片,你需要采用关键词的形式简洁的概括图片的内容。标注形式为:{美食主体:xxx;配料:xxx;容器:xxx;背景:xxx;背景元素:xxx;背景色调:xxx}。
取中文标注后,为了理解这些复杂的通用概念,我们采用中文LLM作为Text Encoder获取其编码表征,并加入到下游unet进行训练。在Stable-Diffusion模型基座上,我们采用IP-Adapter[5]注入方法:在传统的Clip编码表征上,额外注入新的编码信息。其中,StarLight-CLIP只接受菜品语义信息以及挖掘好的标准化文本信息;中文LLM则接受由视觉大语言模型Recaption后的通用概念输入。
训练数据集质量好坏将直接决定了生成模型最终的生成效果。为了保障生成效果以及生成结果可控,我们对收集的美食数据的数据质量进行结构化标注,并按类别清洗。然而,为了保证后续投放流程的自动化与可控性,在这一环节,我们不是面向传统意义上的高质量构建训练数据集,而是面向适合在外卖业务投放的图像属性进行清洗建设。在实践中,我们还发现素材的投放效果并不完全取决于传统意义上的的美学分。在外卖领域,好的图像不仅仅是以美为评判标准,更取决于能否激发用户的食欲。为实现这一目标,团队结合外卖实际业务认知,对训练数据做了充分的清洗。
1)图像质量结构化标注
美团外卖自有数据质量参差不齐,且缺乏标注信息,仅有菜品名可以使用。我们通过对实际数据的分析,将图像质量归纳为以下几个方面:
以上四点构成了外卖图像质量评估的基本评价准则,为了保证可以生成高质量的菜品图片,我们采用OCR、目标检测等方法针对这四个方面对自有数据进行充分的结构化标注。
2)图像类别标注
除了对图像质量进行结构化标注外,为了获取更加真实的生成效果,我们针对数据中典型的图像类别同样进行了结构化标注。在外卖数据中,典型的图像类别包括:照片风格、拼接图、生食、非食品、PS编辑合成图片等。
对数据集中图像进行分类的过程,可视为一个多分类问题。为了获得这样一个图片分类器,我们先小批量人工标注训练样本,然后采用OpenCLIP的Image Encoder+四层MLP作为分类器的结构构建图像分类模型。由于各类别样本数分布不均,采用Logit Adjustment Loss进行训练,然后再进行“模型训练-数据标注”轮动反复多次迭代,逐步提升任务准确率,最终得到了较为准确的类别标注属性。
3)生成图像的可控性
如何将以上样本标注转化为模型训练的控制条件,并保证生成图像的真实性,是美食垂类文生图模型训练中需要思考的问题。对文生图模型而言,有三种主要的控制方式:训练样本控制、连续特征控制和离散特征控制。在美食文生图模型的迭代优化中,我们对这三种控制方式都做了尝试。
训练样本控制:为了控制美食生成质量,使生成图像不出现诸如低美学质量、水印、文字等问题,一个简单的解决思路是将菜品数据集中出现这类问题的图片样本数据进行过滤。基于这个出发点,我们通过以美学分、图文语义相似度、分辨率等阈值及文字、水印标注,对收集的亿级别美食数据进行过滤,挑选了几千万高美学分、高语义相似度、高分辨率、无水印文字的数据集进行训练。从生成结果的评估来看,生成图像的美学质量比较高,但存在较多品类语义理解不佳、生成效果不佳的问题。分析其原因,采用阈值条件筛选导致样本被过滤较多,导致训练样本不足,模型对美食品类学习不充分,泛化性较差。通过降低过滤阈值,美食训练数据不断增加,菜品美食的生成能力在不断提升。基于这个认知,我们采用全量的美食数据进行训练,来构建美食垂类的菜品生成模型。
连续特征控制:连续Embedding特征控制是SDXL[6]为了解决图片裁剪导致生成图像不全问题和提高图像生成质量,将图像裁剪坐标、原始尺寸、目标尺寸数值经过Fourier embedding化转化为256维特征,作为额外的控制条件与timestep特征一起作用于Unet。为了保证生成图像的质量和文生图模型在业务场景批量落地应用时的可控性,鉴于这种控制方式的有效性和精确控制效果,我们尝试将描述图像美学属性的美学分、色度、亮度、饱和度、分辨率、菜品主体大小及位置,按照这种控制方式作用于文生图模型的Unet。此外,为了提升生成模型对输入文本的理解,参考SDXL将文本编码器的Pooled Text Embedding也加入控制条件中。
在实验中,这种控制条件训练所得文生图模型,可通过设置具体数值的美学分、色度、亮度、饱和度、菜品主体大小、位置,来实现对生成图像的精细化控制。例如,生成图像亮度过高,可以适当降低亮度参数的输入值,其他控制条件的调节也是如此。通过对各参数的尝试、对比,选择一组合适的参数作为生成图像的默认控制条件。
离散特征控制:在大规模的美食图片生成落地中,控制条件的选择存在“通用性”和“多样性”之间的trade-off,“通用性”控制指的是符合所有用户需求的默认生成控制条件,例如去除水印、文字等;“多样性”控制指的是针对不同美食品类,经过控制参数调优选取最佳的图片生成控制参数,例如饱和度、亮度、色度等。然而,在面对几百万甚至千万级别的美食图片落地生成时,“多样性”参数的选择将变得非常困难;而给定一组默认控制参数批量生成图片,又会导致生成图像风格相对统一(亮度、色调等)、多样性差的问题。
因此,为了能同时兼顾素材落地对生成图像的“通用性”和“多样性”要求,在后续的模型训练中去除了亮度、色度、饱和度等控制条件,且减弱连续特征的强控制性来保证图像的真实性、多样性以及模型泛化效果。为了既能控制生成图像的美学质量、是否高清、菜品的大小及位置,又不至于控制条件作用太强而缺少泛化性,尝试将这四个控制条件的连续数值按照取值范围离散化为Prompt控制,而各取值范围按照样本数分布进行确定。基于这些控制条件的离散化,美食生成模型兼顾了生成图像的可控性和多样性,生成效果的真实度大大提升。
3.1.4 素材自动审核
在美食头图素材的大规模生产、投放中,我们发现其菜品名数据比较脏,直接采用该菜品名作为Prompt进行生产存在以下几类问题:
为了保证模型大规模生成素材的质量,降低线上展示素材的Badcase率,我们主要从以下三个方面进行解决:
这些流程构建了生成图的自动审核能力,总体可实现Badcase率由5%降至0.71%,可以直接支持小流量下的自动化素材投放需求。
在智能头图场景,视频素材对比图像可以更精准地复现菜品的原貌,提供更加丰富、直观且互动性强的展示效果。团队主要聚焦以下方向进行视频创意素材优化以提升外卖首页feed效率:1)镜头环视:突破了传统单一图片所限制的静态的单一视角,依赖于视频生成技术的镜头环视能够更加全面地展示外观特征,展现品质感。2)动态效果:通过视频生成技术还原菜品的动态性,例如蒸汽缭绕的热菜、噼里啪啦的热油等,动态性能极大地唤起用户的食欲,提高用户转化。下面将围绕以上两个方向具体展开介绍。
视角控制生成,是指用户给定一张图片,能够生成给定相机视角的视频。镜头类型主要包括环视、推拉、平移,以及它们之间的任意组合。镜头运动过程中,当相机视野超出图片可视范围时,需要使用视频生成的技术从时间和空间上对内容进行补全。当前在外卖场景主要从以下几个方向进行了尝试,包括稳定生成镜头环视效果、大角度环视视频生成、勺筷等竖条状干扰下生成、文字干扰和元素动态性生成。
一方面,在模型结构方面我们采用了自研的视频生成框架,能够生成4秒以上的视频。另一方面,我们通过人工+合成数据的方案,制作了大量高质量美食垂类的合成视频。通过建立从仿真到渲染的3D合成链路,我们可以很方便地渲染合成各个方位视角、旋转角度、速度、时长、轨迹、动态背景、以及含有交互类的镜头视频。
然而,仅采用3D仿真数据优化模型,不能完全模拟生成时遇到的各种复杂情形,我们发现该版本对于食物以及文字会出现比较强的扭曲,素材的成功率仅有86%。为了解决这些问题,我们进行了一系列的实验:
仅采用仿真数据 | 最终效果 |
为了能够较好的生成美食垂类下具有丰富动效的视频,我们通过文字特征和图像特征共同引导模型来实现视频可控生成,进而针对多种特效进行控制。这种方法允许用户通过简单的文字描述来控制视频内容生成的方向,显著提高了业务使用时模型的可用性和灵活性。同时,在数据方面,我们不仅采用了真实美食数据,还通过上述合成渲染链路,解决了训练数据视角不可控问题。通过以上方法,模型能够在保持较高自由度的同时,生成满足用户需求的定制化视频内容。
Demo1 | Demo2 | Demo3 | Demo4 |
同时,我们在基于自研的通用视频模型基础上通过二阶段的训练方法,建设美食垂类文生视频模型,并借此还原菜品的制作过程。1)首先,在第一阶段,我们对大量中式菜品进行了中英混合标注,提升模型对中式菜品的理解和生成能力。2)在此基础上,第二阶段在训练好的视频生成模型上采用LoRA[14]技术对原有菜品图或视频进行了专门的学习。
Demo1 | Demo2 | Demo3 | Demo4 |
3.2.3 组合多镜头
除了利用单一模型生产创意之外,最后,我们还设计了组合镜头模板来丰富视频创意的类型,例如多角度展示、环视与动态效果结合等。结合超分、插帧等技术,再系统性组合、拼接不同模型镜头生成的结果,实现了近似商业拍摄的多镜头效果,使得AIGC素材具有更强的表现力。
Demo1 | Demo2 | Demo3 | Demo4 |
4. 落地探索
1)落地场景
我们选择外卖推荐智能头图作为落地主场景,在外卖首页Feed中,商家展示图片是一种重要的信息传递媒介。智能头图会通过个性化算法选择最佳的菜品图片展示给用户,对比使用原始的商家Logo,智能头图的优势在于:
然而,不同与电商、短视频等其他业务,外卖业务下素材质量普遍较低,商家对于图像的主动美化意愿不高。因此,我们利用AIGC技术对菜品图在C端进行集中美化,并作为智能头图供给投放在首页Feed,提高智能头图素材质量进而吸引用户。具体流程如图5所示,我们先利用AIGC技术离线生成海量素材,然后在小流量上通过随机投放的方式进行效果评估,仅保留效果较好的素材。结合个性化排序模型,智能头图会选择最有吸引力的素材展现给用户。为保障用户体验,我们还建立了创意间隔打散、素材黑名单过滤等基础能力。
2)素材&方案选择
在AIGC方案选择上,可以分为三种完全不同的落地导向:1)文生图/视频优化。2)图生图/视频优化。3)图像修复为基础的素材美化。在实际业务中,我们发现,对于第一种方案,用户在首页列表浏览时,对于第一眼看到的创意素材以及店内行为具有极强的关联性,通过头图引流进店的用户很有可能被该菜品所吸引,如果在店内寻找不到对应的菜品,会出现点击率提高、转化率降低的情况。而对于第二种和第三种方案,往往以原图作为基础进行优化,最终点击、转化都会出现显著正向。因此,我们选择基于原图的可控优化为主、其他优化方案为辅的投放生产策略。
3)落地效果
经过外卖推荐算法团队长期探索,AIGC技术在外卖首页推荐智能头图场景下,日均覆盖2亿曝光,整体PV约占首页10%,智能头图场景25%,且取得了显著受益:
图像生成上,团队通过文生图、图生图、图像修复(背景替换)在智能头图场景下共生产百万级别素材,结合自动审核,日曝光量约1亿,投放CTR+5.91%,订单量+0.66%。
视频生成上,团队当前朝自动化投放为目标持续优化良品率,通过建设环视镜头、动效镜头、组合镜头等,结合人工审核,在智能头图场景下共生产数十万级别素材,日曝光量约1亿,投放PV_CTR +3.50%,订单量 +2.16%。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-20
2024-07-18
2024-07-16
2024-07-25
2024-07-14
2024-11-06
2024-11-26
2024-08-13
2024-08-13
2024-07-24
2024-12-21
2024-12-13
2024-11-26
2024-11-26
2024-11-19
2024-11-12
2024-11-11
2024-11-02